Zu schön, um wahr zu sein

„Das ist gut. Gefährlich gut sogar.“ Das kollegiale Geflüster um mich herum wird leiser und ich vermute, dass die anderen ähnlich wie ich gerade überrascht auf das Beispiel der maschinellen Übersetzung blicken, die wir im Praxisteil des ATICOM-Workshops „Post-Editing, MÜ, Apps am Beispiel Studio 2017“ gerade post-editieren. Oder posteditieren? Dazu später mehr. Der Beispieltext, den wir Anfang September auf unseren Bildschirmen im Volkshochschulseminarraum in Düsseldorf haben, stammt aus einem Forschungsprojekt der EU zum Post-Editing. Referentin Katrin Marheinecke von der text & form GmbH hat ihn uns in zwei Versionen mitgebracht: Die eine stammt aus einer statistischen maschinellen Übersetzung (SMÜ), die andere aus einer neuronalen maschinellen Übersetzung (NMÜ) desselben Quelltexts, eines Handbuchs aus dem IT-Bereich. Während die SMÜ-Variante meinen Erwartungen entspricht – einfache Sätze sind brauchbar übertragen, komplexere Gebilde müssten stark korrigiert werden, um auch nur verständlich zu sein –, liest sich die NMÜ-Variante über lange Strecken geradezu flüssig und gut. Aber: gefährlich gut, denn teilweise verkehrt sie trotzdem den Sinn des Originals ins Gegenteil oder lässt wichtige Satzelemente aus, ohne dass es aufgrund grammatischer Ungereimtheiten ins Auge springt. Beispiel gefällig? Bitte sehr:

Original: Select the name of the person you want to review the file you are sending from your computer, enter comments for the reviewer, and then click Send.

SMÜ: Wählen Sie den Namen der Person ein, für die Sie die Datei überprüfen möchten, die Sie von Ihrem Computer, geben Sie Kommentare für den Überprüfer senden, und klicken Sie dann auf „Senden.“

NMÜ: Wählen Sie den Namen der Person, die Sie von Ihrem Computer senden möchten, geben Sie Kommentare für den Überprüfer ein und klicken Sie dann auf „Senden.“

Während man beim Lesen des SMÜ-Satzes ausreichend stolpert, um sich im Original rückzuversichern, könnte einem der zweite Satz glatt durchrutschen, wenn einem nicht bewusst ist, dass man Personen eigentlich nicht von Computern sendet. Erst durch den Vergleich mit dem Original stellt man fest, dass in dieser Version ein wesentlicher Aspekt fehlt („you want to review the file“), weswegen die Bezüge durcheinander geraten. Aber schön flüssig liest sich die NMÜ-Version trotzdem. Wenn man sich ein ähnliches Ergebnis in einem Fachtext vorstellt, dessen Inhalt einem nicht sehr vertraut ist, erkennt man, wie leicht sich bei einer solchen maschinellen Formulierungskunst inhaltliche Fehlübersetzungen übersehen lassen.

Praxis als Augenöffner

Mit dieser kleinen Demonstration veranschaulicht Katrin Marheinecke sehr schön, was sie uns zuvor in ihrem Vortrag zur Praxis des Post-Editings erklärt hat: Um effizient post-editieren zu können, muss man unter anderem wissen, aus was für einer Maschine die MÜ stammt, wie diese Maschine trainiert wurde, welche Arten von Fehlern zu erwarten sind. In der Praxis sei das aber leider häufig nicht der Fall, da das Post-Editing über verschiedene Zwischenschritte oder andere Dienstleistende beauftragt würde und diese wichtige Information auf dem Weg gerne verloren ginge, weil nicht allen Beteiligten deren Bedeutung bewusst sei.

Solche Einblicke und konkreten Beispiele hatte der von Helke Heino für ATICOM konzipierte und organisierte Workshop an seinen zwei Tagen reichlich zu bieten. Den Einstieg am Freitag bestritt Tom Imhof mit einem erfreulich straffen Überblick über die Geschichte der maschinellen Übersetzung und einer Einführung in die Nutzung des MÜ-Angebots von SDL Trados in Studio 2017. Basierend auf seiner umfassenden und langjährigen Erfahrung sowohl mit computergestützten Übersetzungsverfahren (CAT, computer-aided translation) als auch mit den internen Entwicklungsprozessen bei SDL Trados aus unterschiedlichen Perspektiven führte Tom Imhof souverän durch den ersten Workshop-Tag. Wer es noch nicht wusste, erfuhr von ihm, dass die MÜ ein Teilgebiet der Künstlichen Intelligenz (KI) ist und auch dank der allgemeinen großen Entwicklungssprünge, die die KI aktuell macht, einem rasanten Wandel unterliegt, den aufmerksam zu beobachten und zu verstehen sich lohnt.

Laut Tom Imhof bewegt sich die Praxis des Übersetzens schon seit geraumer Zeit in Richtung Post-Editing, zumindest in den Bereichen, die sich auf die CAT stützen. Denn wer die in seinem Übersetzungsspeicher (TM, translation memory) gefundenen Sätze und Satzsegmente wiederverwendet, an einen neuen Kontext anpasst oder anhand von Abweichungen im Original überarbeitet, betreibe schließlich auch eine Form des Post-Editings, also der Überarbeitung einer Übersetzung, die von einer Maschine geliefert wurde. Zumal die neueren Funktionen von CAT-Instrumenten in der Lage sind, Segmente aus verschiedenen bereits übersetzen Sätzen zu kombinieren und so Vorschläge auch für ganz neue Sätze im Original anzubieten, anstatt nur bereits einmal übersetzte Sätze wieder vorzulegen, wie es bis vor Kurzem noch üblich war.

Cloud-Anwendungen und Datenschutz

Man braucht also in SDL Trados Studio 2017 nicht einmal die kostenlos mitgelieferte (eingeschränkte) Möglichkeit zur echten maschinellen Übersetzung zu nutzen, um bereits Teile der eigenen Arbeit im Post-Editing-Modus zu absolvieren (es lohnt sich, über diese fließenden Übergänge und ihre Auswirkung auf die eigene Arbeit immer mal wieder nachzudenken und mit anderen zu diskutieren). Wer die maschinelle Übersetzung in Studio umfänglicher nutzen möchte, kann dazu die in der Lizenz für Studio 2017 enthaltene „Adaptive Engine“ nutzen, deren Einrichtung der Referent erklärte und alle Teilnehmenden nachvollziehen ließ. Bei der Adaptive Engine handelt es sich um eine in der SDL Cloud bereitgestellte Übersetzungsmaschine, die maschinelle Übersetzungen des an sie gesendeten Ausgangstextes erzeugt und an den Anwender zurückgibt. Im Ausgangszustand ist eine solche Maschine über die Auswertung zweisprachiger Inhalte trainiert, die aus dem Internet abgerufen wurden. Durch ihre Verwendung und die anschließende Korrektur der maschinellen Übersetzungen beispielsweise durch die Übersetzerin wird die Maschine weiter trainiert und in die Lage versetzt, anhand des menschlichen Feedbacks ein immer besser an die sprachlichen Wünsche des Benutzers angepasstes Ergebnis zu liefern.

Zwei Punkte dazu hob Tom Imhof besonders hervor: Der Einsatz einer solchen Engine wird erst dann richtig sinnvoll, wenn man sie möglichst viel verwendet, sodass sie mit möglichst großen Textmengen trainiert wird. Und: Um die Vertraulichkeit der übermittelten Übersetzungssegmente brauche man sich in der SDL Cloud dabei keine größeren Sorgen zu machen als bei der Übertragung über das Internet allgemein, da die Inhalte nicht gespeichert, sondern nur verarbeitet und zurückgesendet werden. Anders als beim Aufbau von Übersetzungsspeichern entsteht also bei der maschinellen Übersetzung in diesem Verfahren keine Datenbank der übersetzen Texte oder Textschnipsel.

Lilt – Alternative mit Luft nach oben

Um die cloudbasierte Anwendung wird man bei der Nutzung der maschinellen Übersetzung auf absehbare Zeit nicht herumkommen, da die erforderliche Rechenleistung der statistischen und neuronalen Systeme die Kapazitäten eines PCs sprengen würde. Von daher ist es durchaus wichtig, sich gut über die Datenschutzregelungen und Serverstandorte der Anbieter zu informieren. Auf die Unabdingbarkeit der cloudbasierten Nutzung verwies am Freitagabend auch Carmen Heger, die uns die noch relativ neue Übersetzungsumgebung Lilt vorstellte. Lilt nutzt ebenfalls lernende Systeme für die maschinelle Übersetzung, die in der Demo teilweise beeindruckende Ergebnisse lieferten. Allerdings zeigte sich auch, dass dem Produkt Lilt noch viele Funktionen fehlen, die in den etablierten CAT-System vorhanden und die für viele Übersetzungsprojekte unverzichtbar sind. Im Rahmen der Produktpräsentation gab es Raum für einen teils leidenschaftlichen Austausch, bei dem vor allem eines klar wurde: Künstliche Intelligenz, Informatik, Linguistik, Übersetzungswissenschaft und Übersetzungspraxis tragen alle aus unterschiedlicher Perspektive zur (Weiter-)Entwicklung der maschinellen Übersetzung bei, und die Kommunikation zwischen den verschiedenen Disziplinen ist dabei so wichtig wie oft auch schwierig.

Den angeregten Austausch setzen etliche der Teilnehmenden sowie die Referentinnen beim gemeinsamen Abendessen in einem thailändischen Restaurant fort, bei dem sich bereits abzeichnete, dass alle Anwesenden den Workshop als bereichernd und anregend empfanden.

Post-Editing in mehreren Varianten

Am zweiten Seminartag ging es dann ausführlich ums Post-Editing. Mit Katrin Marheinecke hatte man dafür eine sehr qualifizierte Referentin gewonnen, die sich sowohl in ihrem beruflichen Alltag mit der Praxis des Post-Editing beschäftigt und Post-Editoren ausbildet als auch im Rahmen des EU-finanzierten Forschungsprojekts QT21 mit der wissenschaftlich begleiteten Untersuchung dieses Bereichs befasst ist.

Katrin Marheinecke räumte zunächst mit der Vorstellung auf, dass das Ziel des Post-Editings einer maschinellen Übersetzung darin besteht, einen der menschlichen Übersetzung gleichwertigen Text zu produzieren. „Das ist mit vertretbarem Aufwand nicht leistbar und steht dem eigentlichen Zweck entgegen. Das Einsatzgebiet der maschinellen Übersetzung plus Post-Editing liegt dort, wo große Textmengen schnell und kostengünstig übersetzt werden müssen und wo das Endprodukt kein sprachlich hochwertiger Text sein muss, sondern ein inhaltlich korrekter und gut lesbarer Text.“
Weiterhin sei Post-Editing nicht gleich Post-Editing. Vielmehr unterscheide man zwischen „Gisting“, „leichtem Post-Editing“ und „vollständigem Post-Editing“. Gisting diene nur dem Zweck, den groben Inhalt eines Textes zu erfassen. Es sei nicht domänenspezifisch und finde beispielsweise in sozialen Netzwerken, Bewertungsportalen und Blogs Anwendung. Das „leichte Post-Editing“ ziele auf einen verständlichen, aber nicht vollständig korrekten oder gar stilistisch ansprechenden Text. Es werde domänenspezifisch unterschiedlich durchgeführt und komme bei großen, für den internen Gebrauch unter Zeitdruck benötigten Textmengen zum Einsatz. Beim „vollständigen Post-Editing“ werde zusätzlich auf Zeichensetzung, Typografie und deutliche stilistische Unschönheiten geachtet, wodurch ein befriedigender Lesefluss im Zieltext angestrebt werde. Diese Arbeit erfolge domänen- und teilweise auch kundenspezifisch an Texten, die sichtbarer sind und für die höhere Qualitätsanforderungen gälten, bei denen aber aus Zeit- und Kostengründen ebenfalls auf die höherwertige Humanübersetzung verzichtet werde.

Nachdem wir uns noch näher mit der Vorgehensweise beim Post-Editing befasst hatten, konnten wir es in einer Übung selbst ausprobieren – wie bereits eingangs beschrieben mit überraschenden Ergebnissen. Nach der Mittagspause kamen wir auf die neue Norm ISO/DIS 18587:2017-08 zu sprechen, die eigentlich das Ziel hatte, einen internationalen Standard für das Post-Editing zu schaffen. Nach Ansicht von Katrin Marheinecke und Helke Heino, die sich in der Workshop-Vorbereitung intensiv mit der Norm befasst hatte, ist dies in der aktuellen Fassung jedoch nicht gelungen. Wohl aber sei in der deutschen Fassung die Schreibweise „Postediting“ eingeführt worden, an die man sich im deutschen Sprachraum wohl werde gewöhnen müssen.

Die nahe Zukunft

Abschließend diskutierten Referentin und Teilnehmende anhand ihrer Erfahrungen, was bei der Preisgestaltung für Post-Editing-Dienstleistungen zu berücksichtigen sei. Konsens war dabei, dass besonders im Bereich der großen Sprachen die maschinelle Übersetzung und das Post-Editing sich künftig rascher verbreiten werden als bisher und man sich überlegen muss, wie man damit umgeht. In den kleineren Sprachen, für die bisher nicht so viel gutes zweisprachiges Material vorliegt, an dem man die Maschinen statistisch und neuronal basiert trainieren kann, stellt sich die Situation noch etwas anders dar, aber bis diese aufholen, dürfte es nur eine Frage der Zeit sein.

Für mich stand nach dem Workshop jedenfalls fest, dass ich mich in Zukunft noch etwas gründlicher und systematischer mit diesen Entwicklungen beschäftigen werde, auch um Wege zu finden, mich in meiner Arbeit durch die technischen Fortschritte unterstützen zu lassen. Einen Ausgangspunkt dafür bietet die von Helke Heino für die Teilnehmenden zusammengestellte umfassende Literaturliste, aus der an dieser Stelle auf folgende Artikel, Webinare usw. verwiesen sei:

Dr. Ulrike Walter-Lipow

Dieser Artikel erschien im FORUM 2/2017.

Aufgrund des großen Interesses am Thema Post-Editing bieten wir den zweiten Tag des Workshops Anfang nächsten Jahres erneut als eintägiges Seminar mit Katrin Marheinecke am Samstag, 24. Februar 2018, 9.30 bis 17.30 Uhr in Köln (Südstadt) im Gästehaus St. Georg an.

Die praktische Übung im Post-Editing wird CAT-Tool-unabhängig im Textverarbeitungsprogramm auf dem eigenen Laptop erfolgen – es sind also keine Kenntnisse in SDL Trados Studio erforderlich.