>Arbeiten mit Reintexten - OmegaT 1.8 Benutzerhandbuch

Arbeiten mit Reintexten

Standardkodierung
Verstümmelte Anzeige
Zeichensätze und Kodierung
Die OmegaT Lösung

Standardkodierung

Reintext-Dateien - in den meisten Fällen mit einer .txt. Erweiterung - enthalten ausschließlich textliche Informationen. Es gibt keinen klar definierten Weg den Computer über die eingesetzte Sprache zu informieren. (Ganz) einfach ausgedrückt bedeutet dies, dass der Computer grundsätzlich annimmt, dass der Text in der Sprache geschrieben wurde, die er selbst benutzt.

Verstümmelte Anzeige

Ein Computer eines Russen wird wahrscheinlich in Russisch arbeiten: die Menüs sind in Russisch und die Dateien werden in Russisch sein, usw. In den meisten Fällen entscheidet sich der Rechner richtig, was den Inhalt der Dateien allgemein betrifft: sie sind alle Russisch und enthalten nichts, dass russische Zeichen nicht darstellen könnten.

Sind Sie nun ein russischer Übersetzer sind, der aus der japanischen Sprache übersetzt, dann werden die als Reintext geschickten japanischen Dateien vom Computer als Dateien mit Russisch betrachtet Weil es eben keine Information in der Datei selbst gibt, die dem Rechner die benutzte Sprache vermitteln könnte. Der Inhalt der japanischen Datei könnte wie folgt sein:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Weil er annimmt, dass der Inhalt in Russisch ist, könnte der Texteditor dies wie folgt anzeigen:

OmegaTВВЌБAГRГУГsГЕБ [Г^ВрЧШЧpВ µ ВљЦ|ЦуГcБ [ГЛВВЈБB

Es hat aber nichts mit Russisch zu tun, es sind japanische Buchstaben, die fälschlicherweise als russische Zeichen dargestellt werden.

Wie alle anderen Anwendungen hat auch OmegaT ein Problem damit. OmegaT kann nur annehmen, das in der Grundeinstellung die Reintext Dateien mit der Grundeinstellung des Computers dargestellt werden können. Das ist kein Problem, wenn z.B. der Computer in Französisch arbeitet und der zu übersetzende Text z.B. in Englisch ist, oder wenn der Computer Deutsch ist und Sie mit italienischen Dateien umgehen.

Zeichensätze und Kodierung

Warum würde das mit Englisch und Französisch nicht aber mit Russisch und Japanisch gehen? Weil Englisch und Französisch einen gemeinsamen Zeichensatz benutzen. Nämlich den Latein-1-Zeichensatz, bzw. eine Variante davon. Bis vor Kurzem hatten die russische und die japanische Sprache keinen gemeinsamen Zeichensatz. Aktuellste russische Zeichensätze schließen japanische Zeichen nicht - und umgekehrt auch nicht. Das Ergebnis kann man oben sehen.

Der japanische Kunde arbeitet mit einem japanischen Computer und erzeugt Textdateien, die Japanisch enthalten. Der durch den Kundencomputer ausgewählte Zeichensatz wird vom Betriebssystem und anderen Einstellungen abhängen, aber es ist sehr unwahrscheinlich, dass der gewählte (japanische) Zeichensatz vom Russischen Computer richtig interpretiert wird.

Es hängt von der Kodierung ab, wie die Textinformation in dem angegebenen Zeichensatz physisch übersandt wird (d. h. welche numerischen Codes benutzt der Computer, um Text zu interpretieren und darzustellen). Wenn der Computer die Datei liest, "dekodiert" er die Information gemäß der Codes und zeigt sie gemäß des Zeichensatzes. Grob gesagt, entspricht eine Kodierung einem Zeichensatz...

Die OmegaT Lösung

Es gibt im Wesentlichen drei Arten, das Problem in OmegaT anzugehen. Alle bedienen sich dabei Dateifiltern im Menü Optionen.

Legen Sie Ihre Kodierung für Reintext Dateien fest - d.h. Dateien mit der .txt Erweiterung- : im Abschnitt Textdateien des Dateifilter Dialogs, ändern Sie die Kodierung der Quelldateien von <auto> zur Kodierung, die Ihrer .txt Datei entspricht.
Ändern Sie die Erweiterungen Ihrer Reintext-Quelldateien - zum Beispiel von .txt zu .jp für japanischen Reintext: im Abschnitt Textdateien des Dialogs Dateifilter fügen Sie den zusätzlichen Eintrag Quelldateienmuster - *.jp zum Beispiel - und setzen die entsprechende Parameter für die Quell- und Zielkodierung fest..
Ändern Sie die Kodierung Ihrer Dateien in Unicode: öffnen Sie Ihre Quelldatei in einem Texteditor, der mit der Kodierung umgehen kann, und speichern Sie die Datei als "UTF-8"-kodiert. Ändern Sie die Dateierweiterung von .txt zu .utf8 und OmegaT wird die Datei automatisch als eine UTF8-Datei interpretieren.

OmegaT hält diese kurze Liste bereit, um Ihnen es leichter zu machen, wenn Sie sich mit einigen Reintext-Dateien befassen müssen:

Die .txt Dateien werden von OmegaT automatisch als (<auto>) interpretiert, als wären sie in der Grundkodierung des Computers geschrieben.
.txt1 Dateien benutzen den ISO-8859-1 Zeichensatz, der von meisten Sprachen in West Europa benutzt wird.
.txt2 Dateien sind Dateien in ISO-8859-2, den die meisten Sprachen in Mittel- und Osteuropa benutzen.
.utf8 Dateien werden von OmegaT als mit UTF8 kodiert interpretiert (eine Kodierung, die beinahe alle Sprachen der Welt abdeckt).

Sie können das überprüfen, indem Sie Dateifilter im Menü Optionen auswählen. Zum Beispiel, wenn Sie eine tschechische Textdatei haben (sehr wahrscheinlich in ISO-8859-2 geschrieben ), müssen Sie nur die Erweiterung von .txt zu .txt2 ändern, und OmegaT wird den Inhalt dieser Datei richtig interpretieren. Und, natürlich, wenn Sie auf Nummer Sicher gehen wollen, denken Sie daran, diese Art Dateien zu Unicode, d.h. in .utf8 Format zu konvertieren.

Rechtliche Hinweise

Home

Index des Inhalts