第12章 整形されたテキストを扱う

1. 整形タグ
2. タグ操作
3. タググループの入れ子
4. タググループの重なり
5. タグ検証の設定
6. タググループの検証
7. タグ管理についてのヒント

通常、原文ファイルにある整形情報は、訳文ファイルにも同じく必要になります。対応しているフォーマット(具体的には DocBook、HTML、XHTML、Open Document Format(ODF)、Office Open XML(MS Office 2007 以降))のテキスト中にある整形情報は OmegaT のなかでタグとして表示されます。参考訳文を探すため異なる文字列間の類似度を調べる場合、通常、タグは考慮されません。翻訳した分節にあるタグは訳文ファイルにも含まれます。

1. 整形タグ

タグの名前:

タグ名は1から3文字の文字と数字からなります。タグにはショートカット文字が割り当てられますが、異なるタグが同じショートカット文字を共有する場合もあります。しかしタグの種類に応じて異なる数字が割り振られるため、区別できるようになっています。ショートカット文字は、できるだけタグの意味を反映するように選ばれます(たとえば太字の Bold には b、斜体の Italics には i など)。

タグの番号付け

タグに付けられる数字は、タググループごとに増えていきます。ここで言う「タググループ」とは、単一タグ(<i0> と </i0> のような)を指します。分節のなかで最初のグループ(ペアもしくは単一)が数字 0 となり、次が 1 となります。以下に示す最初の例には、3つのタググループ(ペア、単一、そしてまた別のペア)があります。2つめの例にあるのは、1つのグループ(ペア)だけです。

単一とペア:

タグは常に単一であるか、ペアになっています。単一タグは、タグの周囲にあるテキストには影響しない整形情報を示します(たとえば、追加の空白や改行などです)。

<b0><Ctr+N></b0>, <br1><b2><Enter></b2><分節 2132>

<br1>が単一タグで、周囲のテキストにはまったく影響しません。通常、ペアになったタグは、開きタグと閉じタグの間に挟まれた文字列に適用される整形情報を示しています。下の例の <b0> と </b0> がペアになっており、テキスト「log.txt」に作用しています。開きタグは必ず、対応する閉じタグの前に現れる点に、注意してください。

稼動監視ログファイル(<b0>log.txt</b0>)とエラー。<分節 3167>

OmegaT では、文の分節化が行われる前にタグを作成します。そのため、分節化規則によってはペアのタグが、連続する2つの分節にまたがって分かれることがあります。これは必ずしもタグの破損を意味しませんが、タグ検証機能は大事を取って、分節を両方ともエラーとして報告します。

2. タグ操作

タグを操作する場合には細心の注意が必要です。もし誤って変更してしまうと、最終的なファイルの整形が壊れてしまうかもしれません。基本原則は「タグが連続する場合は、その順番を崩さない」です。しかし、ある一定のルールを遵守すれば、この基本原則を曲げることも可能です。

タグの複製:

タググループを複製するには、単に好きな場所にコピーするだけです。タグがペアになっているタググループでは、開きタグは閉じタグの前になければならないということを忘れないでください。グループを複製した箇所は、元と同じように整形されます。

例:

<b0>この書式</b0>を、こちらにも適用しましょう。<分節 0001>

複製後:

<b0>この書式</b0>を、<b0>こちらにも適用</b0>しました。<分節 0001>

タググループの削除:

タググループを削除するには、分節から取り除けばいいだけです。ペアになっているタググループでは、整形情報を適切に削除するため、開きタグと閉じタグの両方を削除しなければならないことに注意してください。さもなければ訳文ファイルが壊れてしまう可能性があります。タググループを削除することで、関連する整形情報が訳文ファイルから削除されます。

例:

<b0>この書式</b0>を削除します。<分節 0001>

削除後:

この書式を削除しました。<分節 0001>

3. タググループの入れ子

タググループの順序を変更することで、タググループが他のタググループのなかに入れ子になることがあります。この場合、外側のタググループが内側のタググループを完全に囲む限り、問題ありません。言いかえると、ペアになったタグを動かす場合、開きタグと閉じタグの両方が他のタググループのなかに収まるか、あるいは外に出ていればよいのです。そうでない場合は、翻訳ファイルが壊れてしまい、開かなくなる危険性もあります。

例:

<b0>書式設定</b0><b1>1番</b1>を、書式設定0番の入れ子にしましょう。<分節 0001>

入れ子になった後:

<b0>書式設定<b1>1番</b1></b0>は、書式設定0番の入れ子になりました。<分節 0001>

4. タググループの重なり

誤った操作の結果、複数のタグペアで囲まれた箇所が(入れ子ではなく)一部重なってしまうと確実に翻訳ファイルの整形が壊れてしまい、場合によっては翻訳ファイルがまったく開かなります。

例:

<b0>書式設定</b0><b1>1番</b1>は、大変なことになります!<分節 0001>

誤った操作後:

<b0>書式設定<b1>1番</b0></b1>は、大変なことになりました!<分節 0001>

5. タグ検証の設定

タグの取り扱いをカスタマイズするには、メニューの[設定]→[タグ検証...]を選んでください。表示されるダイアログ上で、いくつかの規則を設定できます。

そこでカスタマイズした設定は、すべての原文ファイルに適用されます。整形されたテキストのような、一部のファイル形式にだけ適用されるわけではありません。

  • printf 変数 - 確認しない、単純なものだけ確認、すべて確認

    OmegaT は、プログラミング言語で使用される(たとえば %s のような)変数(書式化文字列)も検出できます。検出レベルは、何も確認しない、単純な printf 変数(%s, %d など)を確認、すべての変数を確認、の3つから選択できます。

  • Java の簡単な MessageFormat 構図を確認する

    このチェックボックスにチェックを入れると、OmegaT は単純な Java の MessageFormat タグ({0} など)を認識するようになります。

  • 独自タグの正規表現

    独自にタグとして認識させたい文字列の正規表現を、ここに入力します。タグ検証機能は、独自タグについても、OmegaT のタグと同じように、個数と順番が変わっていないか確認します。

  • 翻訳から削除すべき文字列の正規表現

    訳文ファイルに含めたくない文字列を、正規表現で入力します。その文字列が訳文分節に存在した場合は、気づきやすいように該当箇所が赤字で表示されます。参考訳文の検索時には、削除すべき文字列は無視されます。もし削除文字列を含む参考訳文と含まない参考訳文とがあった場合は、削除文字列を含む参考訳文に対して5%の固定ペナルティが与えられます。このような場合に、削除した文字列を含む参考訳文の類似度が100%になることは、ありません。

6. タググループの検証

タグ検証機能は、(故意か過失かによらず)変更されたタグを検知し、影響のある分節を表示します。Ctrl+Shift+V でこの機能を使用できます。専用のウィンドウには、壊れたもしくは誤ったと思しきタグを含む分節がすべて表示されます。タグ検証機能により、タグの修正と翻訳文書の再生成が簡単になります。Ctrl+Shift+V により表示されるウインドウには3列の表があります。それぞれ分節へのリンク、原文の分節、訳文の分節です。

図12.1 タグ検証項目

タグ検証項目

原文と訳文で比較しやすいよう、タグは青い太字で強調表示されます。分節番号をクリックすると、編集ウィンドウにその分節を表示できます。必要に応じて訳文を修正(上の例でいえばタグ <i2></i2> ペアの欠落)します。Ctrl+Shift+V を押すと、他のエラーを修正するためにタグ検証ウィンドウに戻ることができます。タグエラーは、訳文分節にある一連のタグの順序や個数が、原文の分節のそれと一致しない場合に発生します。タグ操作には、必要なもの、行っても問題ないものもありますが、中には翻訳後の文書を作成した際に問題となるものもあります。

7. タグ管理についてのヒント

原文テキストを単純にする

タグがあるということは、多くの場合、ある種のフォーマット・整形がそこで行われているということを表します。原文の整形を単純にしておくと、タグは減ります。もし可能であれば、文書中で使用する字体の種類、大きさ、色などをなるべく統一しておくと、翻訳作業を単純化でき、タグ関連のエラーを減らすことができます。タグに対してどういった操作が可能か、タグ操作のセクションを見てください。もし、タグの取り扱いが面倒な場合や整形が翻訳内容にそれほど影響しないときは、訳文にタグを付けないことが、もっとも簡単な解決策になりうることを忘れないでください。

ペアになったタグに特に注意する

原文のタグを確認する必要はあるが、翻訳後の文書に整形情報を含む必要があまりないのであれば、訳文にタグを入れる必要はありません。この場合、ペアになっているタグには特に注意を払ってください。片方のタグだけ削除してしまうと文書の整形情報が壊れてしまうからです。タグはテキストの中に含まれているので、分節化規則を使ってタグの少ない分節を生成することが可能です。これは比較的高度な機能であり、うまく使いこなすにはあるていどの経験が必要です。

OmegaT は今のところ、整形に関する誤りをすべて自動で見つけだすことはできません。また、それが間違いなのか、訳文言語にあうよう意図的に整形情報を改善したものなのか、区別することもできないでしょう。したがって、タグのエラーが見過ごされた時には、生成した訳文ファイルが何かおかしかったり、最悪の場合は、ファイルを開くことができなくなるおそれもあります。