Chapter 9. Datoteke za prijevod

1. Datotečni formati
1.1. Datoteke običnoga teksta
1.2. Datoteke oblikovanoga teksta
1.3. Datoteke PDF
2. Ostali datotečni formati
3. Jezici koji se pišu zdesna nalijevo
3.1. Kombiniranje nizova RTL i LTR u segmentima
3.2. Oznake programa OmegaT u segmentima RTL
3.3. Izrada prevedenih dokumenata RTL

1. Datotečni formati

Program OmegaT možete koristiti za prevođenje datoteka u više formata. U načelu postoje dvije vrste datotečnih formata: običan tekst i oblikovani tekst.

1.1. Datoteke običnoga teksta

Datoteke običnoga teksta sadržavaju samo tekst, pa je stoga unos prijevoda prilično jednostavan. Postoji nekoliko načina za određivanje kodiranja datoteka kako njihov sadržaj ne bi bio nečitak po otvaranju u programu OmegaT. Ove datoteke ne sadržavaju nikakve informacije o oblikovanju osim o bjelinama radi poravnanja teksta, označavanja odlomaka ili umetanja prijeloma stranica. Ne mogu sadržavati ili čuvati informacije o bojama, fontovima i drugim elementima teksta. OmegaT trenutno podržava sljedeće formate običnoga teksta:

  • tekst ASCII (.txt itd.)

  • kodirani tekst (*.UTF8)

  • paketi izvora za jezik Java (*.properties)

  • datoteke PO (*.po)

  • datoteke INI (ključ=vrijednost) (*.ini)

  • datoteke DTD (*.DTD)

  • datoteke DokuWiki (*.txt)

  • datoteke titlova SubRip (*.srt)

  • datoteke Magento CE Locale CSV (*.csv)

OmegaT se može koristiti i za obradu drugih vrsta datoteka običnoga teksta povezivanjem njihovih datotečnih nastavaka s podržanim vrstama datoteka (primjerice, datoteke .pod je moguće povezati s filtrom za tekst ASCII) i njihovom predobradom određenim pravilima segmentacije.

Datoteke PO mogu sadržavati i izvorišni i odredišni tekst. Stoga bi se moglo kazati da su one datoteke običnoga teksta, ali i prijevodne memorije. Ako nemamo prijevod za neki izvorišni segment u prijevodnoj memoriji projekta (project_save.tmx), tekući se prijevod sprema u project_save.tmx kao zadani prijevod. Međutim, ako već imamo drugačiji prijevod za taj isti izvorišni segment, novi se prijevod sprema kao alternativni.

1.2. Datoteke oblikovanoga teksta

Datoteke oblikovanoga teksta pored samoga teksta sadržavaju informacije kao što su vrste, veličine i boje fontova itd. Obično su izrađene programima za obradu teksta ili HTML-a. Takvi datotečni formati čuvaju informacije o oblikovanju. Informacije o oblikovanju mogu biti vrlo jednostavne, npr. „ovo je podebljani tekst”, ili pak poprilično složene, kao kod podataka u tablicama s različitim veličinama, bojama i položajima fontova itd. Zadržavanje oblikovanja izvornoga teksta u prijevodu smatra se važnim u većini prijevodnih zadataka. OmegaT to omogućava postavljanjem oznaka posebno oblikovanih znakova/riječi kojima možete jednostavno upravljati. Pojednostavljivanje oblikovanja izvornoga teksta uvelike doprinosi smanjenju broja oznaka. Objedinjavanjem fontova i njihovih veličina, boja i drugih elemenata gdje god je to moguće u dokumentu olakšavamo prevođenje i smanjujemo broj potencijalnih pogrešaka u oznakama. OmegaT različito barata svakom vrstom datoteka. Određene se funkcije mogu podesiti u datotečnim filtrima. U trenutku pisanja ovoga dokumenta, OmegaT podržava sljedeće formate oblikovanoga teksta:

  • ODF – OASIS Open Document Format (*.ods, *.ots, *.odt, *.ott, *.odp, *.otp)

  • Microsoft Office Open XML (*.docx, *.dotx, *.xlsx, *.xltx, *.pptx)

  • (X)HTML (*.html, *.xhtml,*.xht)

  • HTML Help Compiler (*.hhc, *.hhk)

  • DocBook (*.xml)

  • XLIFF (*.xlf, *.xliff, *.sdlxliff) – s izvorišnim i odredišnim materijalima

  • QuarkXPress CopyFlowGold (*.tag, *.xtg)

  • datoteke ResX (*.resx)

  • izvori za Android (*.xml)

  • LaTex (*.tex, *.latex)

  • datoteke Help (*.xml) i Manual (*.hmxp)

  • Typo3 LocManager (*.xml)

  • WiX Localization (*.wxl)

  • Iceni Infix (*.xml)

  • izvoz iz Flash XML-a (*.xml)

  • Wordfast TXML (*.txml)

  • Camtasia za Windows (*.camproj)

  • Visio (*.vxd)

  • XML svojstava jezika Java (*.xml)

  • Schematron (*.sch)

  • shema RELAX NG za XML (*.rng)

Programom OmegaT moguće je obrađivati i druge vrste datoteka oblikovanoga teksta povezivanjem njihovih datotečnih nastavaka s podržanim vrstama datoteka, uz pretpostavku da će biti pravilno segmentirane putem odgovarajućih pravila segmentacije.

1.3. Datoteke PDF

Datoteke PDF poseban su slučaj. One sadržavaju informacije o oblikovanju teksta, no te informacije nije moguće iskoristiti programom OmegaT za izradu odredišnih datoteka. Stoga se datoteke PDF tretiraju kao datoteke običnoga teksta, a izlazne datoteke su također datoteke običnoga teksta.

Kada u prijevodu treba reproducirati oblikovanje teksta (kao i druge elemente, kao što su slike), možete se poslužiti sljedećim metodama.

  1. Koristite zadani filtar programa OmegaT’s (Unos PDF-a), prevedite tekst, izradite odredišnu datoteku (koja će biti obični tekst) pa na koncu ručno sredite oblikovanje i ostale elemente.

  2. Koristite filtar Iceni Infix. Pogledajte Vodič – Prevođenje datoteka PDF programima Iceni Infix i OmegaT.

  3. Uvezite izvorišnu datoteku u program LibreOffice Draw, spremite je kao datoteku ODG i prevedite pa potom izvezite u PDF prema potrebi.

Napomena: navedene informacije vrijede samo za datoteke PDF sa slojem teksta. Za datoteke PDF koje čine skenirane stranice (koje se ponekad nazivaju ‘mrtvi’ PDF-ovi) treba koristiti program za OCR (optičko prepoznavanje znakova) radi očitavanja i pretvaranja teksta u format koji je moguće obraditi programom OmegaT.

2. Ostali datotečni formati

Programom OmegaT moguće je obrađivati i ostale datotečne formate običnoga ili oblikovanoga teksta.

Za pretvaranje datoteka u podržane formate možete koristiti vanjske alate. Ne zaboravite da datoteke prijevoda na koncu valja vratiti u izvorni format. Primjerice, ako imate zastarjelu inačicu programa Microsoft Word, koja ne podržava format ODT, evo kako se možete snaći s Wordovim datotekama datotečnoga nastavka DOC:

  • uvezite datoteku ODF u program Writer

  • spremite datoteku u formatu ODT

  • prevedite odredišnu datoteku ODT

  • učitajte odredišnu datoteku ODF u program Writer

  • spremite datoteku u formatu DOC

Kvaliteta oblikovanja datoteke prijevoda ovisi o kvaliteti navedenoga tijeka pretvaranja. Prije poduzimanja takvih pretvaranja valja isprobati sve mogućnosti. Ažurirani popis pomoćnih prijevodnih alata možete pronaći na početnoj stranici programa OmegaT.

3. Jezici koji se pišu zdesna nalijevo

Poravnanje teksta izvorišnih i odredišnih segmenata ovisi o jezicima projekta. Prema zadanim vrijednostima, za jezike koji se pišu slijeva nadesno (LTR) koristi se poravnanje teksta slijeva, dok se za jezike koji se pišu zdesna nalijevo (RTL) koristi poravnanje teksta zdesna. Možete mijenjati načine prikaza pritiskom na Shift+Ctrl+O (da ne bude zabune, radi se o slovu O, a ne o brojci 0). Postoje tri načina mijenjanja prikaza kombinacijom tipki Shift+Ctrl+O:

  • zadano poravnanje teksta, definirano jezikom

  • poravnavanje teksta slijeva

  • poravnavanje teksta zdesna

Korištenje načina RTL u programu OmegaT nema baš nikakvoga utjecaja na način prikaza prevedenih dokumenata izrađenih programom OmegaT. Način prikaza prevedenih dokumenata mora biti prilagođen u programima (kao što je Microsoft Word) koji se obično koriste za njihovo prikazivanje ili obradu (što je podrobno pojašnjeno u odgovarajućim priručnicima). Korištenjem Shift+Ctrl+O mijenja se i unos teksta i prikaz u programu OmegaT. Može se koristiti zasebno u sva tri okna (za obradu, djelomična podudaranja i glosare) pritiskom na okno i mijenjanjem načina prikaza. Također se može koristiti u svim poljima za unos programa OmegaT (prozor za pretraživanje, za pravila segmentacije itd.).

Napomena korisnicima sustava Mac OS X: koristite prečac Shift+Ctrl+O, a ne cmd+Ctrl+O.

3.1. Kombiniranje nizova RTL i LTR u segmentima

Kada pišete tekst koji je u cijelosti RTL, možete koristiti zadani prikaz (LTR). Međutim, nerijetko se ukazuje potreba za postavljanje teksta LTR u tekst koji je RTL. Primjerice, to se odnosi na oznake teksta u programu OmegaT, nazive proizvoda koje valja ostaviti u izvorišnome jeziku LTR, oznake iz lokalizacijskih datoteka i brojeve u tekstu. U takvim se slučajevima treba prebaciti u način RTL zbog pravilnoga prikaza teksta RTL (koji je ustvari dvosmjeran). Valja napomenuti da se i izvorišni i odredišni segmenti prikazuju u načinu RTL kada je program OmegaT postavljen na taj način prikaza. To znači da se u slučajevima kada je izvorišni jezik LTR, a odredišni RTL, ili obratno, može ukazati potreba za mijenjanjem i vraćanjem pojedinoga načina prikaza radi pregleda izvorišnoga segmenta i upisivanja u odredišni segment u odgovarajućim načinima prikaza.

3.2. Oznake programa OmegaT u segmentima RTL

Kao što smo već gore napisali, oznake teksta programa OmegaT su nizovi LTR. Kod prevođenja s jezika RTL na LTR i obratno, možete očekivati brojna mijenjanja načina prikaza između LTR-a i RTL-a radi pravilnoga očitavanja oznaka teksta iz izvorišnih segmenata i njihovoga ispravnog unošenja u odredišne segmente.

Ako to dopušta dokument, prevoditeljima se toplo preporučuje uklanjanje informacija o stilovima iz izvornoga dokumenta, tako da se na sučelju programa OmegaT prikazuje što manji broj oznaka teksta. Pridržavajte se naputaka u Savjetima o upravljanju oznakama teksta. Često provjeravajte valjanost oznaka teksta (pogledajte Provjera valjanosti oznaka teksta) i redovito izrađujte inačice dokumenata prijevoda (pogledajte tekst dolje i Izbornik) kako biste lakše otkrili sve eventualne probleme. Savjet: prevođenje inačice dokumenta u obliku običnoga teksta uz naknadno dodavanje potrebnih stilova odgovarajućim programom zna se pokazati manje problematičnim načinom rada.

3.3. Izrada prevedenih dokumenata RTL

Izrađeni prevedeni dokumenti imaju isti smjer prikaza kao izvorni dokumenti. Stoga, ako je izvorni dokument LTR, a u odredišnome dokumentu trebamo RTL, smjer prikaza valja ručno promijeniti u programu kojim se pregledava. Svaki izlazni format ima svoje načine funkcioniranja pri prikazivanju RTL-a, o čemu sve podrobnije podatke možete pronaći u priručnicima odgovarajućih programa.

Kod datoteka .docx brojne se izmjene pak obavljaju automatski:

  • odlomci, odjeljci i tablice se postavljaju u dvosmjerni prikaz
  • tekstni se elementi postavljaju u RTL

U cilju izbjegavanja mijenjanja parametara prikaza odredišnih datoteka pri svakome njihovom otvaranju, valja iskoristiti eventualnu mogućnost izmjene parametara prikaza izvorišnih datoteka kako bi ih koristile i odredišne datoteke. Primjerice, takve su izmjene moguće u datotekama ODF.