Chapter 11. Rad na običnome tekstu

1. Zadano kodiranje
2. Rješenje koje nudi program OmegaT

1. Zadano kodiranje

Datoteke običnoga teksta – u većini slučajeva s datotečnim nastavkom txt – sadržavaju samo tekstne informacije i ne nude nikakve jasno definirane podatke na temelju kojih bi računalo moglo definirati jezik na kojemu su napisane. U takvim je slučajevima najviše što program OmegaT može napraviti jest oslanjanje na pretpostavku da je tekst napisan na istome jeziku koji koristi sâmo računalo. To nije nikakav problem za datoteke kodirane standardom Unicode uz korištenje 16-bitnoga kodiranja znakova. Međutim, za tekstove s 8-bitnim kodiranjem moguće su nezgodne situacije sljedeće vrste: umjesto prikaza teksta sastavljenoga od japanskih znakova...

...sustav će ga, primjerice, prikazati na sljedeći način:

U ovome slučaju imamo računalo na kojemu se koristi program OmegaT, a čiji je zadani jezik ruski, pa stoga znakove prikazuje na ćirilićnome pismu, a ne na japanskome pismu Kanji.

2. Rješenje koje nudi program OmegaT

OmegaT u načelu nudi tri načina rješavanja ovoga problema. Sva tri zahtijevaju primjenu datotečnih filtara putem izbornika Mogućnosti.

Promjena kodiranja datoteka u Unicode

Otvorite izvorišnu datoteku programom za obradu teksta koji pravilno očitava njeno kodiranje pa spremite datoteku kodiranu kao „UTF-8”. Promijenite datotečni nastavak .txt u .utf8. OmegaT će zatim automatski očitavati datoteku kao UTF-8. Ovo je najmudrija alternativa, kojom ćete se lišiti problema na duge staze.

Određivanje kodiranja datoteka običnoga teksta

U naravi se radi o datotekama s datotečnim nastavkom .txt : otvorite dijaloški okvir Datotečni filtri, a zatim u odjeljku Datotečni format odaberite Tekst pa pritisnite gumb Obrada i promijenite stavku <automatski> u stupcu Kodiranje izvorišnih datoteka u kodiranje koje odgovara izvorišnoj datoteci .txt, primjerice u .jp za gore navedeni primjer.

Promjena datotečnih nastavaka izvorišnih datoteka običnoga teksta

Primjera radi, za datoteke običnoga teksta na japanskome jeziku možete promijeniti nastavak .txt u .jp for Japanese plain texts: otvorite dijaloški okvir Datotečni filtri, a zatim u odjeljku Datotečni format odaberite Tekst pa pritisnite gumb Obrada, a zatim u dijaloškome okviru Obrada filtra pritisnite Dodaj pa dodajte novi Uzorak naziva izvorišnih datoteka (u našemu primjeru bi to bio *.jp) i na koncu odaberite odgovarajuće Kodiranje izvorišne datoteke i Kodiranje prevedene datoteke.

OmegaT nudi sljedeći zadani uži popis radi lakšega manipuliranja nekim datotekama običnoga teksta:

  • Program OmegaT automatski (<automatski>) očitava datoteke .txtkao da su kodirane prema zadanim postavkama računala.

  • Kodni sustav datoteka .txt1 je ISO-8859-1, što obuhvaća većinu zapadnoeuropskih jezika.

  • Kodni sustav datoteka .txt2 je ISO-8859-2, što obuhvaća većinu srednjoeuropskih i istočnoeuropskih jezika

  • Program OmegaT očitava datoteke .utf8 kao da su kodirane sustavom UTF-8, što obuhvaća skoro sve jezike na svijetu.

U to se možete i sami uvjeriti putem stavke Datotečni filtri na izborniku Mogućnosti. Primjera radi, ako imate tekstnu datoteku na hrvatskome jeziku, a koja je najvjerojatnije u kodnome sustavu ISO-8859-2, trebate promijeniti nastavak .txt u .txt2 , čime omogućavate programu OmegaT pravilno očitavanje njenoga sadržaja. Naravno, ako želite biti apsolutno sigurni, razmislite o pretvaranju takvih datoteka u Unicode, tj. u datotečni format .utf8.