Datoteka plain text najčešće završava sufiksom .txt
. Plain text datoteke isključivo sadrže tekstualnu informaciju. Kod plain text datoteka ne postoji jasno definisan način o prenošenju informacije o jeziku na kome su napisane, ka računaru. Vrlo uprošćeno govoreći, to znači da računar podrazumijeva da je sadržaj datoteke napisan jezikom operativnog sistema u računaru.
Ako si ruske nacionalnosti, vrlo je vjerovatno da i tvoj računar radi pod ruskim jezikom: Meniji su na ruskom, datoteke koje otvaraš, su takođe na ruskom, itd. U najvećem broju slučajeva, računar donese ispravnu pretpostavku o sadržini datoteka: one su sve ispisane na ruskom jeziku i sa svim ruskim slovima koji se daju njime prikazati.
Ako si prevodilac ruskog porijekla koji prevodi sa japanskog, tada će računar sve datoteke na japanskom, ukoliko su u plain text formatu, smatrati datotekama koje sadrže ruski jezik. Ovo dolazi uslijed pomanjkanja informacije u samoj datoteci koja bi računaru ukazala na kome jeziku je ona napisana.
]Sadržaj datoteke na japanskom bi na pr. mogao biti:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Dok bi tvoj tekst editor vrlo vjerovatno prikazao niz sljedećih znakova:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB
Razlog za to je što prirodno očekuje da obrađuje sadržaj na ruskom jeziku... Dok ti znaci, međutim, nisi ruski. To su japanski znaci pogrešno prikazani kao ruska slova.
Ni OmegaT ne ponaša se drugačije. OmegaT smatra da se plain text datoteke koje sadrže tekst, mogu automatski prikazati na način unaprijed podešen na računaru. Ovaj sistem dobro funkcioniše kad računar radi pod francuskim jezikom a ti na obradu primiš datoteke na engleskom, ili u slučaju kad imaš računar s njemačkim a trebaš prevoditi datoteke s talijanskog jezika.
Zašto ovaj sistem funkcioniše s engleskim i francuskim ali ne i sa ruskim i japanskim jezikom? Razlog tome je što engleski i francuski koriste zajednički set slova. Tačnije, Latin-1, ili neku njegovu varijantu. Sve donedavno, ruski i japanski jezik nisu mogli zajednički koristiti jedinstveni set slova. Najsavremeniji setovi ruskih slova ne pokrivaju japanske znakove, i obrnuto. Učinak te razlike vidan je u gornjem primjeru.
Naručilac prevoda u Japanu koristi japanski računar i sačinjava datoteke na japanskom jeziku. Set slova koji je japanski naručilac prevoda izabrao, zavisiće od operativnog sistema i drugih settinga, ali je malo vjerovatno da će se izabrani (japanski) set slova, ispravno interpretirati na nekom ruskom računaru.
Način fizičkog prenosa tekstualne informacije u određenom setu slova, tj. način pisanja u datoteci namijenjenoj interpretaciji i učitavanju) zavisi od kodnog rasporeda (encoding). Kad računar učitava datoteku, on "dekodira" informaciju shodno dotičnom kodnom rasporedu i prikazuje je saglasnim setom slova. Prostim riječima, svaki kodni raspored ima svoj set slova...
U osnovi, kod OmegaT, postoje tri načina za regulaciju ovih ponašanja. Oni svi podrazumijevaju korištenje filtra datoteka u meniju Opcije.
.txt
ekstenzijom..txt
datoteci..txt
na .jp
za japanske plain text datoteke, na primjer.*.jp
Oblik naziva izvorne datoteke te odaberi odgovarajuće parametre za izvorni i ciljni kodni raspored..txt
u .utf8
.Na sadašnjoj razini, OmegaT je podešen da razumijeva plain text datoteke na sljedeći način:
.txt
datoteke se u OmegaT automatski (<auto>) interpretiraju pod kodnim rasporedom operativnog sistema računara..txt1
predstavljaju datoteke pod ISO-8859-1, koji odgovara najvećem broju jezika Zapadne Evrope..txt2
predstavljaju datoteke pod ISO-8859-2, koji odgovara najvećem broju jezika Srednje i Istočne Evrope.
.utf8
datoteke se u OmegaT interpretiraju kao da su kodirane pod UTF-8 (kodni raspored koji pokriva gotovo sve svjetske jezike).To i sam/a možeš provjeriti pod Filtri datoteka u meniju Opcije.
OmegaT drži ovaj kratak popis spreman, kako bi olakšala baratanje nekim plain text datotekama.
Primjera radi, kod tekstovne datoteke na češkom, (koja je najvjerovatnije napisana u kodnom rasporedu ISO-8859-2) dovoljno je da samo izmjeniš ekstenziku .txt
u .txt2
, pa će OmegaT ispravno interpretirati sadržaj.