Wie wir alle wissen, wird maschinelle Übersetzung immer besser. Wenn Sie etwas mehr darüber erfahren möchten, lesen Sie doch einfach unseren Post „Wie gut ist Maschinelle Übersetzung?”. Im heutigen Post möchte ich nun ein paar praktische Tipps geben, wie man bessere maschinelle Übersetzungen erzielt.
Manche Engines für maschinelle Übersetzung sind besser als andere
Diese Überschrift muss ich etwas genauer definieren. Die Übersetzungsqualität mancher Engines für maschinelle Übersetzung, die so genannten MT-Engines, ist für bestimmte Sprachkombinationen und Fachbereiche besser als bei anderen. Memsource hat dafür eine interessante Lösung gefunden. Hierzu werden verschiedene Engines hinsichtlich der Übersetzungsqualität für bestimmte Sprachkombinationen und Fachbereiche ausgewertet. Auf dieser Grundlage wird dann die für das jeweilige Projekt am besten geeignete Option vorgeschlagen. Zusammengefasst bedeutet das, DIE beste Engine gibt es nicht. Um das beste Ergebnis zu erzielen, muss man mehrere Optionen haben. Wenn Sie sich für dieses Thema interessieren, empfehle ich den neuesten Bericht von Memsource über Maschinelle Übersetzung.
Kundenspezifisch trainierte Engines liefern bessere Übersetzungen
MT-Engines für die maschinelle Übersetzung Ihrer Inhalte liefern bereits erstaunlich gute Ergebnisse. Aber sie kennen weder Ihre Branche, den gewünschten Stil oder firmenspezifische Terminologie. Wenn Ihre Translation Memory groß genug ist, können Sie damit eine solche Engine für Ihre Zwecke trainieren. Dazu brauchen Sie mindestens 10.000 Einträge, sprich Satzpaare, für jede Sprachkombination. Aber je mehr, desto besser. Dieser Korpus bildet Ihre „Trainingsdaten“ und muss aus hochqualitativen Humanübersetzungen stammen. Ansonsten heißt es: „Kommt Mist rein, kommt Mist raus!“
Trainingsdaten optimieren
Auch wenn dies zunächst merkwürdig erscheint; das, was Sie an Trainingsdaten bereitstellen können, ist in der Welt der MT-Engine zunächst ein bisschen chaotisch und nicht wirklich verwendbar. Groß- und Kleinschreibung kann variieren, ungewollte Satzzeichen wie Auslassungspunkte, Aufzählungszeichen oder Nummerierungen. Gute Trainingsdaten müssen die folgenden Kriterien erfüllen:
- Sie brauchen reinen Text ohne jegliche Formatierung oder alles in GROSSBUCHSTABEN.
- Längere Sätze, sprich länger als 5 Wörter, eignen sich am besten.
- Die Sätze dürfen aber auch nicht allzu lang sein, d.h. nicht mehr als 50 Wörter umfassen.
- Keine Aufzählungszeichen oder Nummerierungen, da diese den Trainingsprozess stören.
- Keine sich wiederholenden Zeichen, wie z.B. doppelte Leerzeichen oder Auslassungspunkte …
- Keine Tabulatoren – diese kommen häufig vor, wenn versucht wurde, ein Inhaltsverzeichnis in Word manuell zu erstellen.
Wir entwickeln gerade ein System, das wir „Waschmaschine“ nennen. In dieser Waschmaschine wird Ihre TM gereinigt und kann dadurch bessere Trainingsdaten liefern. Demnächst mehr dazu!
Beziehen Sie Ihre Terminologie mit ein
Bei einigen MT-Engines, wie z.B. Google AutoML, können Sie Ihre Terminologie in den Prozess der maschinellen Übersetzung miteinbeziehen. Dies ist besonders wichtig, da die MT-Engine trotz Trainings bestimmte Fachbegriffe bzw. firmenspezifische Terminologie falsch übersetzen wird und zum Beispiel Markennamen übersetzen könnte. Der zusätzliche Terminologie-Prozess überlagert dann das erste Ergebnis der maschinellen Übersetzung und ersetzt die jeweiligen Fachbegriffe mit der gewünschten Terminologie. So hat der Übersetzer im Anschluss weniger Arbeit.
PEMT = MTPE = Post-Editing von maschineller Übersetzung
Brauchen wir dann überhaupt noch Übersetzer? Oh ja, absolut, zumindest für die meisten maschinell übersetzten Texte. In diesem Fall sprechen wir vom Post-Editing. In diesem Schritt werden die Ergebnisse der maschinellen Übersetzung geprüft und, wo nötig, korrigiert. Das Ziel des Trainings ist also, die Arbeit des Post-Editors auf ein Minimum zu reduzieren.
Generische, fachspezifische Engines für bessere maschinelle Übersetzungen
Werden Sie nicht nervös, wenn Ihr Korpus an bestehenden Übersetzungen nicht groß genug ist. Anbieter von maschineller Übersetzung, wie Microsoft oder ModernMT, verfügen über sehr große, branchenspezifische Datenbanken für Recht, Medizin oder Technik. Dies ist eine absolut berechtigte Abkürzung, um bessere maschinelle Übersetzungen zu erzielen, da die branchenspezifische MT-Engine die allgemein gültige fachspezifische Terminologie sicher schon enthält.
Dieses Thema kann einen auf den ersten Blick etwas überwältigen, wenn man nicht Millionen von Wörtern pro Jahr übersetzt. Im Zuge der neuesten Entwicklungen wird diese Technologie aber immer zugänglicher, auch für kleinere Budgets. Wenn Sie wissen wollen, ob maschinelle Übersetzung auch für Ihre Firma funktioniert, dann sprechen Sie uns bitte an. Gemeinsam finden wir eine Lösung.