Forschung & Entwicklung: Social Knowledge Graph

Für die automatische Übersetzung anspruchsvoller Texte in leicht verständliches Deutsch nutzen wir mit den aktuellen Sequence-to-Sequence-Verfahren State-of-the-Art-Methoden der neuronalen maschinellen Übersetzung.

Im Klartext bedeutet das: Unsere Sprachvereinfachung basiert nicht auf OpenAI oder einem anderen geprompten LLM, sondern wird vollständig von uns trainiert.

Das bringt folgende Vorteile mit sich:

Bessere Anpassbarkeit:

Wir können die Übersetzungsergebnisse auf sehr viele unterschiedliche Arten beeinflussen, sei es durch domänenspezifische Trainings- oder Code-Anpassungen, die sich direkt auf die Formulierung der Outputs niederschlagen. Das liegt daran, dass wir nicht einfach nur eine API ansprechen, sondern unser Übersetzungsmodell komplett neu trainieren.

Besserer Datenschutz und Unabhängigkeit von Drittsystemen:

Unser Modell kann auf unterschiedlichen Infrastrukturen gehostet werden. Wenn Sie sicher gehen wollen, dass Ihre Daten, Ihr Rechenzentrum oder Ihren Server-Raum nicht verlassen, ist auch On-Prem-Hosting möglich. Mit unserer Vereinfachungslösung sind Sie von externen Systemen wie beispielsweise OpenAI komplett unabhängig.

Adaptive Übersetzung

Wir haben unser Modell so gebaut, dass wir damit (also mit ein und demselben Modell!) Outputs auf unterschiedlichen Vereinfachungsstufen (von A1-B2) erzeugen können, um Anforderungen unterschiedlichster Nutzergruppen Rechnung zu tragen.

Bessere Erklärbarkeit:

Wir wissen genau, auf welchen Daten unsere Übersetzung trainiert wurde und wie.

1. Nutzeradaptive Vereinfachung auf Wortebene
Auf Wortebene lässt sich kaum vorhersagen, welche Wörter für unterschiedliche Nutzer schwer oder leicht verständlich sein werden. Das liegt daran, dass Verständlichkeit nicht nur vom Text im Allgemeinen und dem konkreten Kontext eines Worts abhängt. Sie hat auch damit zu tun, welches Vorwissen (z. B. welche Domänenkenntnis) Leser in die Auseinandersetzung mit Texten einbringen und welche Informationen sie aus Texten entnehmen wollen: Was für den einen keine Hürde darstellt, weil er sich schon oft mit eben diesem Thema beschäftigt hat, kann für die andere völlig neu und damit schwer(er) verständlich sein. Das gilt ganz unabhängig von möglicherweise vorhandenen Lernschwierigkeiten oder anderen Verständnishürden wie z. B. einer anderen Muttersprache.

Aus diesem Grund arbeiten wir gerade intensiv daran, Nutzern frei wählbare Wortvereinfachungen bereitzustellen, die nicht einfach nur auf statischen Ersetzungen aus einem Wörterbuch oder Glossar beruhen (was zwangsläufig in grammatischen Fehlern resultieren würde), sondern auf dynamisch wählbaren Ersetzungen schwieriger Wörter durch unser Übersetzungsmodell.

2. Zuverlässige automatische Evaluation
Wenn wir KI nutzen möchten, um komplexe Inhalte allen Menschen zugänglich zu machen - auch vulnerablen Zielgruppen -, müssen wir sicherstellen, dass die Qualität unseres Übersetzungs-Outputs messbar ist. Konkret bedeutet das: Wenn sich unsere KI sicher ist, dass eine Übersetzung nicht gelungen ist, dann sollte diese auch nicht ausgegeben werden, oder nur mit einem Warnhinweis. Hierfür müssen wir auf zwei Ebenen evaluieren: der inhaltlichen Ebene (Ist die Übersetzung inhaltlich korrekt?) und der Ebene der sprachlichen Oberflächenstruktur (Ist die Übersetzung sprachlich wohlgeformt UND "leicht" genug?) aktuelle Metriken bilden diese Anforderungen nur unzureichend ab und in der öffentlichen Diskussion zur Leichten Sprache werden sie in der Regel nur unzureichend berücksichtigt, sodass wir hier völlig neue Wege gehen müssen.