Chapter 14. Segmentacija izvorišnoga teksta

1. Pravila segmentacije
2. Prioritet pravila
3. Postavljanje novoga pravila
4. Nekoliko jednostavnih primjera

Alati za rad s prijevodnim memorijama koriste jedinice teksta koje nazivamo segmentima. OmegaT može segmentirati tekst na dva načina: po odlomcima ili po rečenicama (što se također naziva „segmentacijom na temelju pravila”). Za odabir vrste segmentacije koristite izbornik ProjektSvojstva..., a zatim označite ili odznačite potvrdni kvadratić. Segmentacija po odlomcima ima svojih prednosti u nekim slučajevima, primjerice za kreativnije ili stilski zahtjevnije tekstove u kojima prevoditelj može mijenjati poredak rečenica; međutim, za većinu je projekata segmentacija po rečenicama optimalan izbor, budući da omogućava kvalitetnija podudaranja iz prethodnih prijevoda. Odaberete li segmentaciju po rečenicama, pravila možete postaviti putem izbornika MogućnostiSegmentacija....

Na raspolaganju imate već upisana pouzdana pravila segmentacije za brojne jezike pa vjerojatno nećete trebati sastavljati vlastita. S druge strane, ova funkcija može biti vrlo korisna u posebnim slučajevima, jer podešavanjem pravila segmentacije prema tekstu koji valja prevesti možete povećati produktivnost.

Pozor: promijenite li mogućnosti filtra, tekst se segmentira na drugačiji način pa je moguće da će se ukazati potreba za prevođenjem ispočetka. Istodobno se prethodno valjani segmenti u prijevodnoj memoriji projekta pretvaraju u segmente „siročiće”. Promijenite li postavke segmentacije dok je projekt otvoren, morate ponovno učitati projekt kako bi izmjene imale učinka.

OmegaT djeluje na temelju sljedećega niza radnji.

Segmentacija na razini strukture

OmegaT najprije obrađuje tekst radi segmentacije na razini strukture. Tijekom toga procesa se za segmentiranje koristi samo struktura izvorne datoteke.

Primjerice, tekstne datoteke mogu biti segmentirane na osnovi prijeloma redaka, praznih redaka, a mogu biti i sasvim nesegmentirane. Oblikovane datoteke (dokumenti ODF, HTML itd.) segmentiraju se na osnovi oznaka na razini bloka (odlomka). Prevodivi atributi objekata u datotekama XHTML ili HTML mogu biti izdvojeni kao zasebni segmenti.

Segmentacija na razini rečenice

Nakon segmentiranja izvorišne datoteke u strukturne jedinice, OmegaT dodatno segmentira blokove u rečenice.

1. Pravila segmentacije

Proces segmentiranja si možemo predočiti ovako: pokazivač se pomiče tekstom znak po znak. Na svakome se položaju pokazivača redom primjenjuju pravila uzoraka ispred i iza radi provjere je li neki od uzoraka ispred valjan za tekst lijevo od pokazivača i odgovarajući uzorak iza za tekst desno od pokazivača. Ako je pravilo podudarno, pokazivač se pomiče dalje bez umetanja prijeloma segmenta (za pravilo iznimke) ili se pak tvori novi prijelom segmenta na trenutnome položaju pokazivača (za pravilo prijeloma).

Te dvije vrste pravila funkcioniraju kako slijedi.

Pravilo prijeloma

Izvorišni tekst se razdvaja u segmente. Primjera radi, tekst „Jesi li išta razumio? Nisam bio siguran.” treba biti razdvojen u dva segmenta. Da bi se to ostvarilo, u ovome slučaju treba postojati pravilo prijeloma za znak upitnika („?”) kada nakon njega slijedi razmak i riječ s početnim velikim slovom. Kada želite neko pravilo postaviti kao pravilo prijeloma, označite potvrdni kvadratić Prijelom/iznimka.

Pravilo iznimke

Služi za određivanje dijelova teksta koji NE smiju biti razdvojeni. Primjerice, bez obzira na točku, tekst „Talentirani gosp. Ripley” ne smije biti razdvojen u dva segmenta pa stoga valja postaviti pravilo iznimke za kraticu gosp (i g, dr, mr, prof itd.) koja završava točkom. Kada želite postaviti pravilo iznimke, odznačite potvrdni kvadratić Prijelom/iznimka.

Unaprijed postavljena pravila prijeloma trebala bi biti dostatna za većinu europskih jezika i za japanski. Mogli biste iskoristiti fleksibilnost koju nudi program pa postaviti i dodatna pravila iznimki za izvorišni jezik kako bi segmenti bili suvisliji i dosljedniji.

2. Prioritet pravila

Svi skupovi pravila segmentacije za odgovarajući jezični uzorak su aktivni i primjenjuju se prema zadanome redoslijedu prioriteta, pri čemu pravila postavljena za određeni jezik imaju prednost u odnosu na zadana pravila. Primjera radi, pravila za kanadski francuski (FR-CA) imaju prednost nad pravilima za francuski (FR.*) i zadanim pravilima (.*). Stoga se prilikom prevođenja s kanadskoga francuskog najprije primjenjuju pravila za kanadski francuski (ako su postavljena), nakon čega slijede pravila za francuski i na koncu zadana pravila.

3. Postavljanje novoga pravila

U načelu valja izbjegavati veće izmjene pravila segmentacije, posebice po okončanju prve radne inačice prijevoda, dok manje izmjene, poput dodavanja netom otkrivenih kratica, mogu biti od koristi.

Kada želite promijeniti ili proširiti neki postojeći skup pravila, jednostavno pritisnite na njega u gornjoj tablici. Pravila predmetnoga skupa prikazat će se u donjoj polovici prozora.

Za dodavanje praznoga skupa pravila za neki novi jezični uzorak pritisnite gumb Dodaj u gornjoj polovici dijaloškoga okvira. Na dnu gornje tablice prikazat će se prazan redak (moguće je da ćete za cjeloviti prikaz trebati koristiti traku za pomicanje prema dolje). Promijenite naziv skupa pravila i jezičnoga uzorka u skladu sa željenim jezikom i njegovom oznakom (Appendix A, Jezici – popis oznaka ISO 639 sadržava popis oznaka jezika). Sintaksa jezičnoga uzorka usklađena je onoj koja se koristi za regularne izraze. Ako se vaš skup pravila odnosi na par jezik-država, savjetujemo vam da ga postavite na vrh gumbom Premjesti nagore.

Dodajte uzorke ispred i iza. Za provjeru sintakse i primjenjivosti preporučuje se korištenje alata koji omogućavaju izravan uvid u ishode djelovanja. Pogledajte poglavlje Regularni izrazi. Postojeća pravila uvijek mogu poslužiti kao dobra polazišna osnova.

4. Nekoliko jednostavnih primjera

Namjera Ispred Iza Napomena
Postavljanje početka segmenta nakon znaka točke („.”), iza koje slijedi razmak, tabulator i sl. \. \s „\.” predstavlja znak točke. „\s” predstavlja svaki znak praznine (razmak, tabulator, novu stranicu itd.).
Izbjegavanje segmentiranja iza kratice gosp. gosp\. \s Ovo je pravilo iznimke pa stoga potvrdni kvadratić ne smije biti označen.
Postavljanje segmenta iza znaka „。” (japanska točka).   Uočite da je polje iza prazno.
Izbjegavanje segmentiranja iza kratica M., Mr., Mrs. i Ms. Mr??s??\. \s Pravilo iznimke (proučite uporabu znaka „?” u regularnim izrazima).