第7章 ファイルフィルター

1. ファイルフィルター ダイアログ
2. フィルター設定
3. フィルターの編集ダイアログ
3.1. 原文ファイル形式、ファイル名構成例
3.2. 原文ファイルと訳文ファイルのエンコーディング
3.3. 訳文ファイル名

OmegaT には高度にカスタマイズ可能なフィルター機能があり、さらにその多くの挙動設定を変更できます。ファイルフィルターは以下のような機能を持ったコードの集まりです:

OmegaT が対応しているファイル形式は、メニューの[設定]→[ファイルフィルター]から一覧できます。

ほとんどの場合は、デフォルトのファイルフィルター設定のままで問題ないでしょう。もしそうでなければ、メインメニューから[設定]→[ファイルフィルター]を選択してダイアログを開いてください。プロジェクト設定から[ファイルフィルター...]を選ぶことで、現在のプロジェクト専用のファイルフィルターを設定することもできます。この設定は、他のプロジェクトに影響を与えません。

プロジェクト専用ファイルフィルターを設定するには、まずメニューから[プロジェクト]→[プロジェクト設定...]を選びます。次に[ファイルフィルター...]ボタンをクリックして、[ファイルフィルター設定をプロジェクト専用にする]チェックボックスにチェックを入れます。こうすると、フィルター設定のコピーがプロジェクト自体とセットで保持されるようになります。この状態でフィルターの設定を変更すると、プロジェクト専用フィルターだけが更新されます。ユーザーレベルのフィルターには影響しません。

警告:プロジェクトを開いているときにフィルター設定を変更すると、変更を適用するためにプロジェクトの再読み込みが必要になります。

1. ファイルフィルター ダイアログ

使用可能なファイルフィルターを一覧表示します。OmegaT の中で翻訳したくないファイル形式がある場合は、ファイル形式名の横にあるチェックボックスのチェックを外すと、その形式に対してフィルター機能を使わないようにすることができます。フィルターを無効にしているファイル形式のファイルは、プロジェクトの読み込み時に無視され、訳文生成時には未変更の状態で訳文フォルダーにコピーされます。再びフィルターを使用したくなったら、対象のチェックボックスにチェックを入れてください。[初期値を復元] をクリックすると、それまでのフィルター設定をリセットし初期設定に戻します。フィルター対象とするファイルやエンコーディングを変更する場合は[編集...]をクリックします。

ダイアログ上で、次の設定の有効/無効を切り替えることができます:

  • 先頭と末尾のタグを削除:先頭と末尾のタグを含むすべてのタグを表示したい場合は、この設定のチェックを外してください。警告:Microsoft Open XML 形式のファイル(docx や xlsx など)について、すべてのタグを表示した場合は、決して先頭のタグの前にテキストを入力しないでください(そのタグは技術的な理由で、常に分節の先頭に置かなければなりません)。

  • 分節化しないプロジェクトから、先頭と末尾の空白文字を削除:OmegaT は既定で、先頭と末尾の空白文字を削除します。分節化しないプロジェクトの場合、このオプションのチェックを外すことによって、それらの空白文字を保持することができます。

  • すべてのタグの空白を維持:原文ファイルにとって空白文字が(レイアウトの都合上)重要な意味を持ち、それを無視すべきでない場合は、このオプションのチェックを入れてください。

  • 複数訳文の識別時にファイルのフルパス情報を無視する:OmegaT は既定で、原文ファイル名を複数訳文の識別基準のひとつに利用します。このオプションにチェックを入れると、ファイル名は識別に利用されません。複数訳文の識別には、ファイル名以外の文脈情報(前後の分節や、ファイル形式によってはある種の ID)だけが使用されます。

2. フィルター設定

以下のフィルター(テキストファイル、PO ファイル、XHTML ファイル、HTML ファイル・XHTML ファイル、OpenDocument ファイル、Microsoft Open XML ファイル)では、いくつかの専用オプションを設定できます。設定を変更する場合は、フィルターを選択して[設定...] を押してください。可能な設定は以下の通りです:

テキストファイル

  • 原文を改行で分節化するか、空行で分節化するか、分節化しないか:

    文単位の分節化が有効になっている場合は、ここで選択した設定によってさらに分節化されます。

PO ファイル

  • 訳文ファイルの空分節を許可

    この設定を有効にすると、未翻訳の PO 分節(たいていは段落全体)を空のままにして訳文ファイルを生成します。もう少し技術的に立ち入った話をすると、PO 訳文ファイルの msgstr 分節が空のままになる、ということです。PO ファイルの場合はこれが一般的な状態ですので、この設定はデフォルトで有効になっています。この設定を無効にすると、原文が訳文分節にコピーされます。

  • PO ヘッダーを無視

    この設定にチェックを入れると、PO ヘッダーを翻訳対象外とみなして、原文のままにします。

  • ヘッダーの「nplurals=整数; plural=式;」を自動で置換

    この設定にチェックを入れると、PO ファイルのヘッダーにある複数形指定を、訳文言語に合わせて自動変更します。

XHTML ファイル

  • 以下の属性を翻訳:選択した属性を編集ウィンドウで分節として表示できます。

  • 以下のタグで分節化: HTML の <br> タグがある場所を段落とみなして分節化することができます。

  • 以下の正規表現に一致する文字列を翻訳しない:指定した正規表現に一致するテキストは、翻訳対象とせずスキップすることができます。スキップした箇所は、タグ検証では赤く表示されます。参考訳文ウィンドウでは、スキップした箇所が原文分節にあると、そのテキストは斜体で表示されます。

  • <meta> タグ内の以下の属性と値は翻訳しない(カンマ区切りで複数指定):ここで指定した <meta> タグは、翻訳されません。

  • 以下の属性と値を持つタグの内容は翻訳しない(カンマ区切りで複数指定):ここでキー=値の形式で指定したタグは、翻訳されません。

    この設定は、ある属性の値に応じてタグを翻訳しないようにするのに、役に立つことがあります。たとえば、<div class="hide"> <span translate="no"> のようなタグは、キー=値の形式で指定して翻訳対象外に設定できます。この例の場合、設定欄は次のようになります:class=hide, translate=no

Microsoft Office Open XML ファイル

どの要素を翻訳するか、選ぶことができます。選んだ要素は、翻訳時に個別の分節として表示されます。

  • Word:非表示の命令とテキスト、コメント、脚注、文末脚注、ヘッダー、フッター

  • Excel:コメント、シート名

  • Power Point:スライドのコメント、スライド マスター、スライド レイアウト

  • 共通:表、ダイアグラム、図、ワードアート

  • その他の設定:

    • タグを結合:チェックが入っていれば、翻訳対象テキストを含まない連続するタグを1つのタグに結合します。

    • すべてのタグの空白を維持:チェックが入っていれば、空白文字(半角スペースや改行など)を保持します。たとえそれが技術的には意味が無い場合でも、残します。

HTML ファイル・XHTML ファイル

  • 以下の場合に HTML・XHTML ファイルにエンコーディング宣言を追加または変更:訳文ファイルのエンコーディング文字セットを、原文ファイルのそれ(明示的に指定されたものであれ、暗黙に適用されたものであれ)とは違うものにしたいということは、よくあります。この設定を使うと、訳文ファイルにエンコーディング宣言を含めるかどうかを指定できます。たとえば、ファイルフィルターで訳文ファイルのエンコーディングが UTF-8 に指定されている場合、この設定によって、訳文ファイルに必ずその情報を含めるようにすることができます。

  • 以下の属性を翻訳:選択した属性を編集ウィンドウで分節として表示できます。

  • 以下のタグで分節化: HTML の <br> タグがある場所を段落とみなして分節化することができます。

  • 以下の正規表現に一致する文字列を翻訳しない:指定した正規表現に一致するテキストは、翻訳対象とせずスキップすることができます。スキップした箇所は、タグ検証では赤く表示されます。参考訳文ウィンドウでは、スキップした箇所が原文分節にあると、そのテキストは斜体で表示されます。

  • <meta> タグ内の以下の属性と値は翻訳しない(カンマ区切りで複数指定):ここで指定した <meta> タグは、翻訳されません。

  • 以下の属性と値を持つタグの内容は翻訳しない(カンマ区切りで複数指定):ここでキー=値の形式で指定したタグは、翻訳されません。

    この設定は、ある属性の値に応じてタグを翻訳しないようにするのに、役に立つことがあります。たとえば、<div class="hide"> <span translate="no"> のようなタグは、キー=値の形式で指定して翻訳対象外に設定できます。この例の場合、設定欄は次のようになります:class=hide, translate=no

  • 訳文ファイルの空白圧縮:連続する空白文字がある場合、訳文ファイル生成時に空白文字一つだけに変換します。

  • 訳文ファイルの HTML コメントを削除:すべてのコメント部(<!-- から --> までのあいだ)を訳文ファイルに出力しません。

OpenDocument Format (ODF) ファイル

  • どの要素を翻訳するか、選ぶことができます:

    Index 項目、ブックマーク、ブックマーク参照、脚注、コメント、プレゼンテーションのノート、リンク(URL)、シート名

3. フィルターの編集ダイアログ

このダイアログでは、フィルターで処理する原文ファイル名の構成例の指定、訳文ファイル名のカスタマイズ、読み込む原文ファイルと生成する訳文ファイルのエンコーディングを設定できます。ファイルフィルター構成例を編集するには、それぞれの欄をダブルクリックして直接修正するか、編集ボタンをクリックします。新しいファイルフィルター構成例を追加するには追加ボタンをクリックします。構成例の追加と編集には、同じダイアログを使用します。このダイアログは、訳文ファイル名の構成例編集に特化したエディターを持っているため、出力するファイル名のカスタマイズに便利です。

3.1. 原文ファイル形式、ファイル名構成例

OmegaT は原文フォルダーにファイルを見つけると、まず拡張子から判別してファイルフィルターを選択しようとします。もっと具体的に言うと、各フィルターの原文ファイル名構成例から、ファイル名と一致するものを探索します。たとえば、構成例 *.xhtml は、拡張子が .xhtml のあらゆるファイルに一致します。適切なフィルターが見つかった時点で探索は終了し、そのフィルターが該当するファイルの処理に割り当てられます。たとえばデフォルトでは、XHTML フィルターは拡張子 .xhtml のファイルを処理するのに使用されます。そのフィルターに扱わせたいファイルに応じて、ファイル名構成例を変更したり追加したりできます。原文ファイル名構成例には、検索機能と同様にワイルドカード文字を使用できます。ワイルドカード「*」は0個以上の任意の文字と一致します。ワイルドカード「?」は任意の1文字と一致します。他のすべての文字は、それらの文字自身をあらわします。たとえばテキストフィルターを readme ファイル(readmeread.mereadme.txt)にも対応させたい場合は、ファイル名構成例に read* を指定してください。(日本語訳注:実際にはワイルドカード文字と衝突しない範囲で、正規表現も使用できます。たとえばファイル名の末尾に数字のついた、拡張子 .foo のファイルを扱いたい場合は、*\d.foo のような指定が可能です。正規表現の詳細は、http://docs.oracle.com/javase/jp/6/api/java/util/regex/Pattern.html を参照してください)

3.2. 原文ファイルと訳文ファイルのエンコーディング

エンコーディングの指定が必須のファイル形式は限られています。エンコーディングを特に指定しなかった場合(<自動> の場合)は、拡張子に応じたエンコーディングが使用されます。たとえばデフォルトでは、.txt ファイルには OS のデフォルト エンコーディングが使用されます。原文ファイルのエンコーディングを、ファイル名構成例ごとに変更することもできます。まったく同様に、訳文ファイルを出力する際のエンコーディングも、任意に変更できます。デフォルトでは、訳文ファイルのエンコーディングは、原文ファイルと同じになります。原文ファイルと訳文ファイルのエンコーディングを指定する項目では、対応したすべてのエンコーディングをコンボボックスから選択できます。<自動> は、OmegaT に自動的に判断させます。自動の場合のエンコーディングは、次の仕組みで判定します:

  • 原文ファイルにエンコーディング宣言があれば、それに従います(HTML ファイル、XML ベースのファイルの場合)

  • いくつかのファイル形式(Java properties など)に対しては、その形式に必須のエンコーディングを設定します

  • テキストファイルには、OS デフォルトのエンコーディング(たとえば日本語版の Windows OS では、シフト JIS 固定)を使用します

3.3. 訳文ファイル名

翻訳するファイル名を自動的に変更したい時があると思います。たとえば、ファイル名のあとに言語コードを追加したい場合などです。訳文ファイル名構成例は特別な文法で記述されています。これを編集したい場合は、[編集...]をクリックして構成例編集ダイアログを使用してください。編集内容をそのフィルターの初期値に戻したい時は、[初期値を復元]をクリックしてください。またファイルフィルターダイアログの中で、訳文ファイル名構成例を直接編集することもできます。構成例編集ダイアログでは、以下のような変数を使用できます:

  • デフォルトは ${filename} です。-- 拡張子を伴った完全な原文ファイル名で、これを指定すると、訳文ファイル名は原文ファイル名と同じになります。

  • ${nameOnly} -- 拡張子なしの原文ファイル名です。

  • ${extension} -- 原文ファイルの拡張子のみです。

  • ${targetLocale} -- 訳文のロケールコード(「xx_YY」形式)です。

  • ${targetLanguage} -- 訳文の言語コードと国コードを合わせたもの(「XX-YY」形式)です。

  • ${targetLanguageCode} -- 訳文の言語コードのみ(「XX」)です。

  • ${targetCountryCode} -- 訳文の国コードのみ(「YY」)です。

  • ${timestamp-????} -- 各種の書式による訳文ファイル生成時のシステム日時です。

    『SimpleDateFormat』の書式については、Oracle 技術文書を参照してください。

  • ${system-os-name} -- コンピューターの OS 名です。

  • ${system-user-name} -- システムのユーザー名です。

  • ${system-host-name} -- システムのホスト名です。

  • ${file-source-encoding} -- 原文ファイルのエンコーディング名です。

  • ${file-target-encoding} -- 訳文ファイルのエンコーディング名です。

  • ${targetLocaleLCID} -- 訳文ファイルの Microsoft ロケール(「xx-yy」形式)です。

${nameOnly} と ${extension} に関しては、追加の変数を使用できます。ファイル名があいまいな場合、使用する構成要素を ${nameOnly-拡張子の個数} と ${extension-名前の個数} の形式で指定することができます。たとえば原文ファイル名が「Document.xx.docx」だったとしましょう。その場合、各種の変数とその結果は次のようになります:

  • ${nameOnly-0} Document

  • ${nameOnly-1} Document.xx

  • ${nameOnly-2} Document.xx.docx

  • ${extension-0} docx

  • ${extension-1} xx.docx

  • ${extension-2} Document.xx.docx