第11章 プレーンテキストを扱う

1. デフォルトエンコーディング
2. OmegaT での解決方法

1. デフォルトエンコーディング

プレーンテキストファイル(拡張子 .txt の場合が多い)には、本文テキストしか含まれていません。どういった言語なのかをコンピューターに伝える方法は、明確に定義されていません。このような場合、OmegaT はテキストがコンピューターの言語設定と同じ言語で書かれているものとみなします。ファイルが 16 ビットでエンコードされたユニコード文字セットの場合は、特に問題は起きません。同じユニコードでも、8 ビットでエンコードされていた場合は、厄介な問題に直面します。たとえば次のような日本語のテキストがあった場合…

… OS によっては、次のように表示されるかもしれません:

OmegaT を実行しているコンピューターがデフォルトの言語をロシア語に設定していた場合、テキストは日本語の文字ではなくキリル文字のアルファベットで表示されてしまいます。

2. OmegaT での解決方法

OmegaT には、主に3つの解決策があります。いずれも設定メニューにあるファイルフィルターを利用します。

ファイルのエンコーディングをユニコードに変更する

原文ファイルをテキストエディターで開き、エンコーディング UTF-8 で保存しなおします。このとき、拡張子を .txt から .utf8 に変更してください。OmegaT はこのファイルを UTF-8 ファイルとして自動的に認識します。これは最も理にかなった解決策で、あなたを厄介ごとから救ってくれます。

プレーンテキストファイルのエンコーディングを指定する

拡張子 .txt のファイルを例に取ります。ファイルフィルターダイアログからテキストファイルのフィルターを編集し、原文ファイルのエンコーディングを「<自動>」から対象の .txt ファイルに適したエンコーディングに変更します。たとえば上の例で言えば、日本語に対応したエンコーディングに変更します。

プレーンテキストファイルの拡張子を変更する

たとえば日本語のファイルであれば、拡張子を .txt から .jp に変えます。次に、ファイルフィルターダイアログからテキストファイルのフィルターを編集し、原文ファイル名の構成例を新しく追加します。例の場合は「*.jp」とします。エンコーディングには、適切な値を設定してください。

OmegaT は、プレーンテキストの取り扱いを簡単にするために、デフォルトで次の拡張子に対応しています。

  • .txt ファイルは、エンコーディングを「<自動>」で認識します。これは、コンピューターのデフォルトのエンコーディングに合わせることを意味します。

  • .txt1 ファイルは西ヨーロッパ言語のほとんどに対応する ISO-8859-1 エンコーディングとして解釈されます。

  • .txt2 ファイルは中央、東ヨーロッパの言語のほとんどに対応する ISO-8859-2 エンコーディングとして解釈されます。

  • .utf8 ファイルは OmegaT によって、(世界中ほぼすべての言語に対応する)UTF-8 エンコーディングとして解釈されます。

これらは[設定]メニューの[ファイルフィルター]一覧で[テキストファイル]を選択し、[編集...]を押すと[フィルターの編集]一覧で確認できます。たとえば、チェコ語で書かれたテキストファイル(ほとんどの場合 ISO-9959-2 で書かれているでしょう)を扱う場合、拡張子を .txt から .txt2 に変更するたけで、OmegaT は内容を正しく解釈します。もちろん、安全のため、こうしたファイルはユニコード形式(ここでは .utf8 ファイル)への変換を検討してもいいでしょう。