Bijlage D. Tokenizers

1. Introductie
2. Selectie talen

1. Introductie

Tokenizers (of stemmers) verbeteren de kwaliteit van de overeenkomsten door het herkennen va betrokken woorden in de bron en gegevens in de vertaalgeheugens. Zij verbeteren ook de overeenkomsten voor de woordenlijsten.

Een stemmer voor bijvoorbeeld Engels zou de tekenreeks "cats" identificeren (en mogelijk "catlike", "catty" etc.) omdat die is gebaseerd op de stam "cat", en "stemmer", "stemming", "stemmed" omdat die is gebaseerd op "stem". Een stemming algoritme reduceert de woorden "fishing", "fished", "fish", en "fisher" tot de stam van het woord: "fish". Dit is speciaal bijzonder handig in het geval van talen die vormen voor voor- en achtervoegsel voor de stamwoorden gebruiken. Lenen we een voorbeeld uit het Sloveens, hier "good" in alle mogelijke grammaticaal juiste vormen:

  • lep, lepa, lepo - enkelvoud, mannelijk, vrouwelijk, neutraal

  • lepši, lepša, lepše . - comparatief, nominatief, mannelijk, vrouwelijk, neutraal, resp. meervoudsvorm van het bijvoeglijk naamwoord

  • najlepših - superlatief, meervoud, genitief voor M,F,N

2. Selectie talen

Tokenizers zijn opgenomen in OmegaT en standaard actief. OmegaT selecteert automatisch een tokenizer voor de bron- en de doeltaal, overeenkomstig de taalinstellingen van het project. taalHet is mogelijk om een andere tokenizer (Tokenizer taal) te selecteren of een andere versie van de tokenizer (Gedrag tokenizer) in het venster Projecteigenschappen.

In het geval dat er geen tokenizer bestaat voor de huidige talen, gebruikt OmegaT in plaats daarvan Hunspell (zorg er in dat geval voor dat de relevante woordenboeken van Hunspell zijn geïnstalleerd).

Niet compatibel

OmegaT zal niet starten als er tokenizers worden gevonden in de map /plugin. Verwijder alle tokenizers uit de map /plugin vóórdat OmegaT wordt gestart.