プレーンテキストファイル(拡張子 .txt の場合が多い)には、本文テキストしか含まれていません。どういった言語なのかをコンピューターに伝える方法は、明確に定義されていません。このような場合、OmegaT はテキストがコンピューターの言語設定と同じ言語で書かれているものとみなします。ファイルが 16 ビットでエンコードされたユニコード文字セットの場合は、特に問題は起きません。同じユニコードでも、8 ビットでエンコードされていた場合は、厄介な問題に直面します。たとえば次のような日本語のテキストがあった場合…
… OS によっては、次のように表示されるかもしれません:
OmegaT を実行しているコンピューターがデフォルトの言語をロシア語に設定していた場合、テキストは日本語の文字ではなくキリル文字のアルファベットで表示されてしまいます。
OmegaT には、主に3つの解決策があります。いずれも設定メニューにあるファイルフィルターを利用します。
原文ファイルをテキストエディターで開き、エンコーディング UTF-8 で保存しなおします。このとき、拡張子を .txt
から .utf8
に変更してください。OmegaT はこのファイルを UTF-8 ファイルとして自動的に認識します。これは最も理にかなった解決策で、あなたを厄介ごとから救ってくれます。
拡張子 .txt
のファイルを例に取ります。ファイルフィルターダイアログからテキストファイルのフィルターを編集し、原文ファイルのエンコーディングを「<自動>」から対象の .txt
ファイルに適したエンコーディングに変更します。たとえば上の例で言えば、日本語に対応したエンコーディングに変更します。
たとえば日本語のファイルであれば、拡張子を .txt
から .jp
に変えます。次に、ファイルフィルターダイアログからテキストファイルのフィルターを編集し、原文ファイル名の構成例を新しく追加します。例の場合は「*.jp
」とします。エンコーディングには、適切な値を設定してください。
OmegaT は、プレーンテキストの取り扱いを簡単にするために、デフォルトで次の拡張子に対応しています。
.txt
ファイルは、エンコーディングを「<自動>」で認識します。これは、コンピューターのデフォルトのエンコーディングに合わせることを意味します。
これらは[設定]メニューの[ファイルフィルター]一覧で[テキストファイル]を選択し、[編集...]を押すと[フィルターの編集]一覧で確認できます。たとえば、チェコ語で書かれたテキストファイル(ほとんどの場合 ISO-9959-2 で書かれているでしょう)を扱う場合、拡張子を .txt
から .txt2
に変更するたけで、OmegaT は内容を正しく解釈します。もちろん、安全のため、こうしたファイルはユニコード形式(ここでは .utf8
ファイル)への変換を検討してもいいでしょう。