Appendix D. Tokenizatori

1. Uvod
2. Odabir jezika

1. Uvod

Tokenizatori (ili alati za prepoznavanje korijena) poboljšavaju kvalitetu podudaranja prepoznavanjem dekliniranih riječi u izvorišnim podacima i prijevodnim memorijama. Također poboljšavaju i pronalaženje rezultata podudaranja u glosarima.

Alat za prepoznavanje korijena za engleski, primjera radi, prepoznaje oblik „cats” (pa i „catlike”, „catty” itd.) na temelju korijena „cat”, kao i „stemmer”, „stemming”, „stemmed” prema korijenu „stem”. Algoritam za određivanje korijena svodi riječi „fishing”, „fished”, „fish” i „fisher” na korijensku riječ „fish”. To je posebno korisno kod jezika u kojima se izvedenice tvore dodavanjem prefiksa ili sufiksa korijenskim riječima. Posudit ćemo jedan primjer iz hrvatskoga jezika – pridjev „lijep” u gramatički ispravnim oblicima:

  • lijep, lijepa, lijepo – jednina, muški rod, ženski rod, srednji rod

  • ljepši, ljepša, ljepše – komparativ, nominativ, muški rod, ženski rod, srednji rod. Množinski oblik pridjeva.

  • najljepših – superlativ, množina, genitiv muškoga, ženskoga i srednjega roda

2. Odabir jezika

OmegaT već sadržava tokenizatore, i to aktivirane prema zadanim postavkama. OmegaT automatski bira tokenizator za izvorišni i odredišni jezik na temelju postavki jezika projekta. Prozor svojstava projekta nudi i odabir nekoga drugog tokenizatora (Jezični tokenizator) ili druge inačice tokenizatora (Funkcioniranje tokenizatora).

U slučajevima kada nema tokenizatora za odabrane radne jezike, OmegaT koristi Hunspell (pri čemu valja voditi računa da budu instalirani odgovarajući Hunspellovi rječnici).

Nekompatibilnosti

OmegaT se ne može pokrenuti kada se tokenizatori nalaze u mapi /plugin. Prije pokretanja programa OmegaT valja ukloniti sve tokenizatore iz mape /plugin.