第14章 原文の分節化

1. 分節化規則
2. 規則の優先順位
3. 規則の新規作成
4. 簡単な設定例

翻訳メモリツールは、分節と呼ばれるテキスト単位で処理を行います。OmegaT がテキストを分節化する方法は2つあります。段落単位の分節化と、文単位の分節化(「ルールベースの分節化」とも呼ばれます)です。分節化の方法を選択するには、メインメニューから[プロジェクト][プロジェクト設定...]を開き、表示されるチェックボックスを使用してください。段落単位の分節化は、高度に文学的または芸術的な翻訳のような、一部のケースでは有用です。これらの翻訳では、文脈に応じて翻訳者が文の順番を入れ替えることがあるためです。しかし大半のプロジェクトでは、文単位の分節化が望ましいでしょう。その方が、過去の翻訳と一致しやすい(再利用しやすい)ためです。文単位の分節化を選択した場合、分節化規則は、メインメニューの[設定][分節化...]で設定できます。

信頼できる分節化規則が多くの言語で設定済みのため、新たな独自規則を作成する必要は、あまりないでしょう。一方で、特定の状況では、翻訳する原文に合わせて分節化規則を調整することで、大きく生産性を上げることができるようになります。

警告:ファイルフィルターの設定を変更すると、分節が変化することがあります。場合によっては、翻訳を一からやり直すことになるかもしれません。このとき、以前は有効だった翻訳済みの分節は、翻訳メモリ内で、現在の原文に存在しない分節になります。またプロジェクトを開いているときに分節化の設定を変更すると、変更を適用するためにプロジェクトの再読み込みが必要になります。

OmegaT は下記の通りに一連の処理を実施します:

構造単位の分節化

OmegaT は、まず構造単位の分節化を行うため、文書の構文を解析します。この処理のあいだ、分節作成のために参照される内容は、原文ファイルの構造のみです。

たとえば、テキストファイルの場合は、改行で分節化するか、空行で分節化するか、または、まったく分節化しないかのいずれかです。整形情報を持ったファイル(ODF 文書、HTML 文書など)は、ブロックレベル(段落)のタグを基準に分節化されます。XHTML や HTML ファイルでは、オブジェクトの属性も翻訳の対象になることがあります。このような場合は、属性値だけを分節として取り出します。

文単位の分節化

原文ファイルを論理的な区切りで分節化した後、OmegaT はさらにそれらを文単位で分節化します。

1. 分節化規則

分節化の流れは以下のように示すことができます:テキスト中を 1 文字ずつ動くカーソルをイメージしてください。それぞれのカーソル位置について、規則を適用できるかどうか、決められた順序で確認します。すなわち、カーソル位置の左側にあるテキスト全体が、前方の正規表現に合致するかどうか。合致した場合はさらに、カーソル位置の右側にあるテキストが、後方の正規表現に合致するかどうか。適用できる規則が見つかれば、そのカーソル位置についてはそれ以上規則を確認しません。見つかった規則が例外(分割しない)の場合は、何もせずにカーソルを次へ進めます。分節(分割する)の場合は、カーソル位置で改節してから、カーソルを次へ進めます。

規則には、次に示す2種類があります:

分節規則

原文テキストを2つの分節に分割します。たとえば「Did it make sense? I was not sure.」というテキストは、意味的に2つの分節に分けられるべきです。そのためには「?」に関する分節規則(後ろにスペースと大文字で始まる単語が続く場合、という条件付きで)があるほうがよいでしょう。改節するための規則を定義する場合は、[分割する/しない]チェックボックスにチェックを入れます。

例外規則

分割すべき「でない」テキストを指定します。「Mrs. Dalloway」というテキストはピリオドを含みますが、2つに分節化されるべきではありません。したがって、ピリオドの前に「Mrs」(他に Mr、Dr、prof など)がある場合についての例外規則が必要になります。改節を禁止するための規則を定義する場合は、[分割する/しない]チェックボックスにチェックを入れずにおきます。

ほとんどのヨーロッパ言語と日本語については、定義済みの分節規則で十分なはずです。翻訳しようとする言語に対して、より意味のあるわかりやすい分節化を行うために、さらに柔軟に例外規則を追加してもよいでしょう。

2. 規則の優先順位

言語の構成例について一致する分節化規則は、すべて与えられた優先順で適用されます。したがって、特定の言語のために設定した規則は、デフォルトのものより高い優先順位を与えるほうがよいでしょう。たとえば、カナダフランス語(FR-CA)用の規則は、フランス語(FR.*)用の規則よりも優先順位を高くし、なおかつデフォルト(.*)の規則よりも高くしておきます。こうしておけば、カナダフランス語を原文とするプロジェクトでは、まずカナダフランス語用の規則、次にフランス語用の規則、最後にデフォルトの規則、という順序で適用されます。

3. 規則の新規作成

分節化規則を大きく変更することは、特に最初の下訳が終わった後では、避けるべきです。しかし略称を認識させるために規則を追加するような、限定的な変更であれば、それは改善に値します。

規則集を編集するには、[分節化規則の設定]ウィンドウ上部にある表から、目的の項目をクリックします。するとウィンドウ下部に、選択した規則集の内容が表示されます。

新しい言語コードの正規表現を追加するには、上部の表の横にある[追加]をクリックしてください。表の最下部に新しい行が作成されます(確認のために下までスクロールさせる必要があるでしょう)。言語名と、言語コードの正規表現を変更してください(言語コードの一覧は付録A 言語設定 - ISO 639 コード一覧 を参照してください)。定義する言語コードの文法は正規表現の文法に従います。作成する規則群が、言語-国ペアに対するものである場合、[上へ]ボタンを使って、先頭に移動させておくことをおすすめします。

前方の正規表現後方の正規表現を追加する追加する構成例が文法的に正しいか、また意図する対象にちゃんと適用されるか確認するためには、正規表現をその場でテストできるような支援ツールの使用をお勧めします。詳しくは「正規表現」の章を参照してください。手始めに、既存の規則を参考に真似してみるのも良いでしょう。

4. 簡単な設定例

目的 前方の正規表現 後方の正規表現 備考
ピリオド(「.」)の後ろと、それに続くスペースやタブの前で分節を作る \. \s 正規表現「\.」は、文字「.」を表します。正規表現「\s」は任意の空白文字(スペース、タブ、改行など)を表します。
「Mr.」の後では分節化しない Mr\. \s これは例外規則です。[分割する/しない]チェックボックスには、チェックを入れずにおきます。
「。」(日本語の句点)の後ろで分節化する   [後方の正規表現]は空欄としておいてください。
「M.」、「Mr.」、「Mrs.」、「Ms.」の後ろでは分節化しない Mr??s??\. \s 例外規則です。? 文字の使用方法については「正規表現」の章を参照してください。