Práca s obyčajným textom

Predvolené kódovanie
Nesprávne zobrazovanie znakov
Znakové sady a kódovania
Riešenie OmegaT

Predvolené kódovanie

Obyčajné textové súbory - vo väčšine prípadov s príponou .txt. - obsahujú iba textové informácie. Neexistuje žiadny jasný spôsob ako informovať počítač o tom, ktorý jazyk obsahujú. (Veľmi) jednoducho povedané, to znamenám že počítač bude predvolene predpokladať, že text je napísaný v rovnakom jazyku aký používa samotný počítač.

Nesprávne zobrazovanie znakov

Ak ste rus, je veľmi pravdepodobné, že váš počítač pracuje tiež v ruštine: menu sú v ruštine, súbory, ktoré otvárate budú v ruštine atď. Vo väčšine prípadov, počítač robí správny predpoklad ohľadom Obsahu súborov vo všeobecnosti: všetky obsahujú ruštinu a nič čo by ruské znaky nemohli zobraziť.

Teraz, ak ste ruský prekladateľ, ktorý prekladá z japončiny, dostanete japonské súbory, ak sú to obyčajné textové súbory tak budú napravdepodobnejšie počítačom považované za súbory obsahujúce ruštinu. Pretože neexistuje informácia v samotnom súbore, ktorá by počítači označovala v ktorom jazyku sú napísané.

Obsah japonského súboru by mohol byť:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Ale váš textový editor by to mohol pokojne zobraziť takto:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpВµВљЦ|ЦуГcБ[ГЛВ≅ВЈБB

Pretože očakáva, že Obsah je ruština... Ale toto nie je ruština. Toto sú japonské znaky nesprávne zobrazené ako ruské znaky.

Program OmegaT nie je iný. OmegaT predpokladá, že obyčajné textové súbory obsahujú text, ktorý môže byť automaticky zobrazený pomocou predvolených nastavení počítača. Toto funguje dobre, keď počítač funguje vo francuzstine a keď dostanete anglické súbory, alebo keď počítač je nemecký a ak dostanete talianske súbory.

Znakové sady a kódovania

Prečo by to fungovalo s angličtinou a francúzštinou ale nie s ruštinou a japončinou? Pretože angličtina a francúzština používajú spoločnú znakovú sadu. Menovite Latin-1, alebo obmenu. Donedávna, ruština a japončina nepoužívali žiadne spoločné znakové sady. Väčšina súčasných ruských znakových sád nepokrýva japončinu a opačne. Výsledok je ako je ukázané vyššie.

Japonský klient pracuje s japonským počítačom a vytvára textové súbory, ktoré obsahujú japončinu. Znaková sada vybraná klientovým počítačom bude záležať na operačnom systéme a na iných nastaveniach, ale je veľmi nepravdepodobné, že vybraná (japonská) znaková sada bude správne interpretovaná ruským počítačom.

Teraz, ako sú textové informácie v zadanej znakovej sade sú fyzicky prenesené (tj. ako je to zapísané v súbore pre počítač na interpertáciu a zobrazenie) záleží na kódovaní. Keď počítač číta súbor, "dekóduje" informácie podľa kódovania a zobrazí ich podľa znakovej sady. Zhruba, jedno kódovanie zodpovedá jednej znakovej sade...

Riešenie OmegaT

Sú v podstate 3 spôsoby ako to opraviť v OmegaT. Všetky 3 spôsoby používajú filtre súborov v menu Voľby.

Uveďte kódovanie pre vaše obyčajné textové súbory - tj. súbory s príponou .txt.
V sekcii Textové súbory dialógového okna filtre súporov, zmeňte Kódovanie zdrojového súboru z <auto> na kódovanie ktoré zodpovedá vášmu zdrojovému .txt súboru.
Zmeňte prípony vašich obyčajných textových zdrojových súborov - z .txt na .jp pre japonské obyčajné texty napríklad.
V sekcii Textové súbory dialógového okna filtre súborov, pridajte *.jp ako Vzor názvu zdrojového súboru a vyberte príslušné parametre pre zdrojové a cieľové kódovanie.
Otvorte zdrojový súbor v textovom editore ktorý správne zobrazí jeho kódovanie a uložte súbor v kódovaní "UTF-8".
Zmeňte príponu súboru z .txt na .utf8.
OmegaT bude súbor automaticky interpretovať ako súbor UTF-8.

V súčasnosti je program OmegaT nastavený pre nasledujúce chápanie obyčajných textových súborov

.txt súbory sú automaticky (<auto>) interpretované pomocou OmegaT ako kódované v predvolenom kódovaní počítača.
.txt1 súbory sú súbory v ISO-8859-1, pokrývajúcom väčšinu západoeurópskych jazykov.
.txt2 súbory sú v ISO-8859-2, ktoré pokrýva väčšinu stredo a východoeurópskych jazykov)
.utf8 súbory sú v OmegaT interpretované ako kódované v UTF-8 (kódovanie, ktoré pokrýva takmer všetky jazyky na svete).

Môžete to sami skontrolovať vybratím položky Filtre súborov v menu Voľby.

Program OmegaT iba udržiava tento krátky zoznam pripravený aby vám uľahčil narábanie s niektorými obyčajnými textovými súbormi.

Napríklad, ak máte český textový súbor (veľmi pravdepodobne napísaný v kóde ISO-8859-2) potrebujete iba zmeniť príponu .txt na .txt2 a OmegaT bude jeho obsah interpretovať správne.

Právne poznámky