Appendix D. Tokenizery

1. Úvod
2. Výběr jazyka

1. Úvod

Tokenizer (též zvaný ‚stemmer‛, čili nástroj, který umí poznat slovo podle jeho kořene / kmene) zvyšuje kvalitu nálezů při rozpoznání konkrétních slov ve zdrojovém textu a v datech překladové paměti. Stejně tak umí zlepšit hledání v glosáři.

Napříkld stemmer pro angličtinu by měl identifikovat řetězec „cats“ (a stejně „catlike“, „catty“, atd.) protože vychází z kmene „cat“, a slova „stemmer“, „stemming“ a „stemmed“ mají kořen „stem“. Algoritmus pro nalezení kořene redukuje slova jako „fishing“, „fished“, „fish“ a „fisher“ na kořen slova „fish“. Toto je obzvláště užitečné u jazyků, které používají předpony a přípony pro odvozování nových slov z kořene. Uveďme si ještě jeden příklad ze slovinštiny, zde jsou různé formy pro anglické „good“:

  • lep, lepa, lepo – jednotné číslo, mužský, ženský a střední rod

  • lepši, lepša, lepše - komparativ, první pád, mužský, ženský a střední rod, resp. forma množného čísla přídavného jména

  • najlepših – superlativ, množné číslo, druhý pád pro mužský, ženský a střední rod.

2. Výběr jazyka

Tokenizery jsou v OmegaT zahrnuty a aktivní již ve výchozím nastavení. OmegaT automaticky vybere tokenizer pro zdrojový a cílový jazyk podle jazykových nastavení projektu. Je možné vybrat jiný tokenizer (jazyk tokenizeru) nebo jinou verzi tokenizeru (chování tokenizeru) v okně Vlastnosti projektu.

Pokud pro aktuální jazyk není dostupný žádný tokenizer, pak OmegaT použije místo toho Hunspell (v takovém případě se ujistěte, že máte instalovány příslušné slovníky Hunspell).

Případy nefunkčnosti

OmegaT se nespustí, pokud v adresáři /plugin budou nějaké tokenizery. Ještě před startem OmegaT odstraňte z adresáře /plugin případné soubory tokenizeru.