Chapter 11. Práce s prostým textem

1. Výchozí kódování
2. Řešení pomocí OmegaT

1. Výchozí kódování

Prosté textové soubory - ve většině případů s koncovkou txt – obsahují výhradně textové informace a nabízí tak nejasně definovaný způsob jak počítač informovat o tom, jaký jazyk obsahují. Maximum, co může OmegaT v takovém případě udělat je, že bude předpokládat, že text je napsán ve stejném jazyce, jaký používá sám počítač. Toto pak není žádný problém pro soubory kódované v Unicode užívající 16-ti bitovou sadu kódování znaků. Pokud je text kódován 8 bity, pak se můžete setkat s následující nepříjemnou situací: místo zobrazení textu psaného japonskými znaky ...

... systém zobrazí např. něco podobného:

Počítač, na kterém je spuštěna OmegaT, má výchozí jazyk ruštinu, a proto zobrazuje znaky v azbuce, nikoliv kanji.

2. Řešení pomocí OmegaT

OmegaT má v podstatě k dispozici tři způsoby jak na věc. Všechny zahrnují použití filtrů souborů z nabídky Možnosti.

Změňte kódování svých souborů na Unicode.

Otevřete zdrojový soubor v textovém editoru, který správně interpretuje použité kódování a uložte soubor s kódováním „UTF-8“. Změňte koncovku souboru z .txt na .utf8. OmegaT bude soubor automaticky interpretovat jako soubor v kódování UTF-8. Toto je nejběžnější alternativa, která vám nakonec ušetří spoustu problémů.

Specifikace kódování v prostých textových souborech.

(tj. soubory s koncovkou .txt ): v části Textové soubory dialogového okna Filtry souborů, změňte Kódování zdrojového souboru z <auto> na kódování odpovídající vašemu zdrojovému souboru .txt, např. na .jp dle nahoře uvedeného příkladu.

Změňte koncovky vašich prostých textových souborů.

Například z .txt na .jp pro prosté textové soubory v japonštině: v části Textové soubory okna Filtry souborů, přidejte nový Vzor pro názvy zdrojových souborů (např. *.jp v tomto případě) a vyberte vhodné parametry pro kódování zdroje a cíle.

Ve výchozím nastavení má OmegaT k dispozici následující krátký seznam, aby tak bylo jednodušší zpracovávat některé prosté textové soubory:

  • Soubory s koncovkou .txt jsou v OmegaT automaticky (<auto>) interpretovány jako kódované v předvoleném kódování počítače.

  • Soubory s koncovkou .txt1 jsou soubory v ISO-8859-1, kryjící většinu jazyků Západní Evropy.

  • Soubory s koncovkou .txt2 jsou soubory v ISO-8859-2, což kryje většinu jazyků Střední a Východní Evropy).

  • Soubory s koncovkou .utf8 jsou v OmegaT interpretovány jako v kódování UTF-8 (kódování, které pokrývá téměř všechny jazyky světa).

Můžete si to ověřit sami tak, že označíte položku Filtry souborů v nabídce Možnosti. Například když máte textový soubor v češtině (velmi pravděpodobně napsaný v kódování ISO-8859-2), pak jednoduše potřebujete jen změnit koncovku .txt na .txt2 a OmegaT bude interpretovat obsah souboru správně. A zajisté, když si chcete být zcela jistí, převeďte tyto soubory do kódování Unicode, t.j. do souborového formátu .utf8.