付録D トークナイザー

1. はじめに
2. 言語設定

1. はじめに

トークナイザー(またはステマー)は、原文および翻訳メモリデータ内の単語の語尾変化を認識することによって、参考訳文の照合精度を改善します。また用語集の照合精度も改善します。

英語用のステマー(訳注:単語から接尾辞などを取り除く処理をステミングと呼ぶことから)を例にとってみましょう。「cats」という文字列(「catlike」や「catty」でもよいですが)は、「cat」を語幹としています。同様に「stemmer」や「stemming」、「stemmed」は「stem」を語幹としています。ステミングのアルゴリズムは、「fishing」や「fished」、「fish」、「fisher」などの単語を、語幹の「fish」という単語に収斂します。この処理は、語尾や語頭の変化形を持つ言語を扱う場合に、とても役立ちます。スロベニア語から例を拝借すると、「良い」という意味の単語は、文法的にまったく正しく次の変化形を取ります:

  • lep, lepa, lepo - 単数形、男性形、女性形、中性形

  • lepši, lepša, lepše . - 比較級、主格、男性形、女性形、中性形、それぞれに形容詞の複数形あり

  • najlepših - 最上級、複数形、M,F,N(男性,女性,中性)の所有格

2. 言語設定

OmegaT のトークナイザーは、デフォルトで有効になっています。プロジェクトの原文と訳文の言語に応じて、OmegaT がトークナイザーを自動的に設定します。プロジェクト設定ウィンドウから、トークナイザーの種類(言語のトークナイザー)やバージョン(互換設定)を変更できます。

現在の言語に対して使用可能なトークナイザーが見つからない場合、OmegaT は代わりに Hunspell を使用します(このような場合は、該当する言語の Hunspell 辞書が導入済みであることを確認してください)。

互換性に関する注意点

トークナイザーは、plugin フォルダーに古いバージョンのファイルが存在すると、正常に機能しません。plugin フォルダーにトークナイザーがあれば、OmegaT を起動する前にすべて削除してください。