付録D トークナイザー
戻る		次へ

付録D トークナイザー

1. はじめに
2. 言語設定

1. はじめに

トークナイザー（またはステマー）は、原文および翻訳メモリデータ内の単語の語尾変化を認識することによって、参考訳文の照合精度を改善します。また用語集の照合精度も改善します。

英語用のステマー（訳注：単語から接尾辞などを取り除く処理をステミングと呼ぶことから）を例にとってみましょう。「cats」という文字列（「catlike」や「catty」でもよいですが）は、「cat」を語幹としています。同様に「stemmer」や「stemming」、「stemmed」は「stem」を語幹としています。ステミングのアルゴリズムは、「fishing」や「fished」、「fish」、「fisher」などの単語を、語幹の「fish」という単語に収斂します。この処理は、語尾や語頭の変化形を持つ言語を扱う場合に、とても役立ちます。スロベニア語から例を拝借すると、「良い」という意味の単語は、文法的にまったく正しく次の変化形を取ります：

lep, lepa, lepo - 単数形、男性形、女性形、中性形

lepši, lepša, lepše . - 比較級、主格、男性形、女性形、中性形、それぞれに形容詞の複数形あり

najlepših - 最上級、複数形、M,F,N（男性，女性，中性）の所有格

2. 言語設定

OmegaT のトークナイザーは、デフォルトで有効になっています。プロジェクトの原文と訳文の言語に応じて、OmegaT がトークナイザーを自動的に設定します。プロジェクト設定ウィンドウから、トークナイザーの種類（言語のトークナイザー）やバージョン（互換設定）を変更できます。

現在の言語に対して使用可能なトークナイザーが見つからない場合、OmegaT は代わりに Hunspell を使用します（このような場合は、該当する言語の Hunspell 辞書が導入済みであることを確認してください）。

互換性に関する注意点

トークナイザーは、plugin フォルダーに古いバージョンのファイルが存在すると、正常に機能しません。plugin フォルダーにトークナイザーがあれば、OmegaT を起動する前にすべて削除してください。

戻る		次へ
付録C OmegaT チームプロジェクト	ホーム	付録E LanguageTool プラグイン