Rad sa plain text-om


Podrazumijevani (default) kodni raspored

Datoteka plain text najčešće završava sufiksom .txt. Plain text datoteke isključivo sadrže tekstualnu informaciju. Kod plain text datoteka ne postoji jasno definisan način o prenošenju informacije o jeziku na kome su napisane, ka računaru. Vrlo uprošćeno govoreći, to znači da računar podrazumijeva da je sadržaj datoteke napisan jezikom operativnog sistema u računaru.


Iskrivljeno prikazivanje

Ako si ruske nacionalnosti, vrlo je vjerovatno da i tvoj računar radi pod ruskim jezikom: Meniji su na ruskom, datoteke koje otvaraš, su takođe na ruskom, itd. U najvećem broju slučajeva, računar donese ispravnu pretpostavku o sadržini datoteka: one su sve ispisane na ruskom jeziku i sa svim ruskim slovima koji se daju njime prikazati.

Ako si prevodilac ruskog porijekla koji prevodi sa japanskog, tada će računar sve datoteke na japanskom, ukoliko su u plain text formatu, smatrati datotekama koje sadrže ruski jezik. Ovo dolazi uslijed pomanjkanja informacije u samoj datoteci koja bi računaru ukazala na kome jeziku je ona napisana.

]Sadržaj datoteke na japanskom bi na pr. mogao biti:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Dok bi tvoj tekst editor vrlo vjerovatno prikazao niz sljedećih znakova:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB

Razlog za to je što prirodno očekuje da obrađuje sadržaj na ruskom jeziku... Dok ti znaci, međutim, nisi ruski. To su japanski znaci pogrešno prikazani kao ruska slova.

Ni OmegaT ne ponaša se drugačije. OmegaT smatra da se plain text datoteke koje sadrže tekst, mogu automatski prikazati na način unaprijed podešen na računaru. Ovaj sistem dobro funkcioniše kad računar radi pod francuskim jezikom a ti na obradu primiš datoteke na engleskom, ili u slučaju kad imaš računar s njemačkim a trebaš prevoditi datoteke s talijanskog jezika.


Setovi slova i kodni rasporedi

Zašto ovaj sistem funkcioniše s engleskim i francuskim ali ne i sa ruskim i japanskim jezikom? Razlog tome je što engleski i francuski koriste zajednički set slova. Tačnije, Latin-1, ili neku njegovu varijantu. Sve donedavno, ruski i japanski jezik nisu mogli zajednički koristiti jedinstveni set slova. Najsavremeniji setovi ruskih slova ne pokrivaju japanske znakove, i obrnuto. Učinak te razlike vidan je u gornjem primjeru.

Naručilac prevoda u Japanu koristi japanski računar i sačinjava datoteke na japanskom jeziku. Set slova koji je japanski naručilac prevoda izabrao, zavisiće od operativnog sistema i drugih settinga, ali je malo vjerovatno da će se izabrani (japanski) set slova, ispravno interpretirati na nekom ruskom računaru.

Način fizičkog prenosa tekstualne informacije u određenom setu slova, tj. način pisanja u datoteci namijenjenoj interpretaciji i učitavanju) zavisi od kodnog rasporeda (encoding). Kad računar učitava datoteku, on "dekodira" informaciju shodno dotičnom kodnom rasporedu i prikazuje je saglasnim setom slova. Prostim riječima, svaki kodni raspored ima svoj set slova...


Rješenje koje pruža OmegaT

U osnovi, kod OmegaT, postoje tri načina za regulaciju ovih ponašanja. Oni svi podrazumijevaju korištenje filtra datoteka u meniju Opcije.

  1. Specificira kodni raspored za tvoje plain text datoteke - tj. datoteke sa .txt ekstenzijom.
    U sekciji Tekst datoteke dijaloga filtri datoteka, promijeni Kodni raspored izvorne datoteke sa <auto> na kodni raspored koji odgovara tvojoj izvornoj .txt datoteci.
  2. Promijeni ekstenzije tvojih izvornh plain text datoteka - sa .txt na .jp za japanske plain text datoteke, na primjer.
    IU sekciji Tekst datoteke dijaloga filtri datoteka, dodaj *.jp Oblik naziva izvorne datoteke te odaberi odgovarajuće parametre za izvorni i ciljni kodni raspored.
  3. Otvori tvoju izvornu datoteku u tekst editoru koji ispravno interpretira njen kodni raspored i spasi je sa kodnim rasporedom "UTF-8".
    Promijeni ekstenziju datoteci sa .txt u .utf8.
    OmegaT će ovu datoteku automatski interpretirati kao datoteku UTF-8.

Na sadašnjoj razini, OmegaT je podešen da razumijeva plain text datoteke na sljedeći način:

To i sam/a možeš provjeriti pod Filtri datoteka u meniju Opcije.

OmegaT drži ovaj kratak popis spreman, kako bi olakšala baratanje nekim plain text datotekama.

Primjera radi, kod tekstovne datoteke na češkom, (koja je najvjerovatnije napisana u kodnom rasporedu ISO-8859-2) dovoljno je da samo izmjeniš ekstenziku .txt u .txt2, pa će OmegaT ispravno interpretirati sadržaj.


Napomene pravne prirode