第9章 翻訳対象ファイル

1. ファイル形式
1.1. プレーンテキストファイル
1.2. 整形されたテキストファイル
2. その他のファイル形式
3. 右から左へ表記する言語
3.1. 分節中での LTR(左から右)と RTL(右から左)文字列の混在
3.2. RTL 分節における OmegaT タグ
3.3. 翻訳した RTL 文書の作成

1. ファイル形式

OmegaT は翻訳対象として数多くのファイル形式に対応しています。ファイル形式は基本的に2種類に大別できます。プレーンテキスト形式と整形されたテキスト形式です。

1.1. プレーンテキストファイル

プレーンテキストファイルにはテキストのみが含まれます。したがってその翻訳は、単純に対訳を入力していくだけで済みます。OmegaT には、ファイルが文字化けしないよう、開く際のエンコーディングを指定する方法がいくつか用意されています。このようなファイルは、いわゆる「空白文字(ホワイトスペース)」以外には、整形用の情報を含んでいません。整形用の情報とは、テキスト揃えや段落、改ページなどの指定を指します。テキストの色や字体などの情報も、持ちません。現在の OmegaT は、プレーンテキストファイルのうち以下の形式に対応しています:

  • ASCII テキスト(.txt など)

  • エンコードされたテキスト

  • Java リソースバンドル(*.properties)

  • PO ファイル(*.po)

  • INI ファイル(キー=値 形式)(*.ini)

  • DTD ファイル(*.DTD)

  • DokuWiki ファイル(*.txt)

  • SubRip 字幕ファイル(*.srt)

  • Magento CE Locale CSV ファイル(*.csv)

他の形式のプレーンテキストファイルでも、OmegaT で扱うことができます。まずその拡張子を OmegaT が対応しているフィルター形式に追加します(たとえば .pod ファイルを「テキストファイル」フィルターに追加するなど)。次に、必要であれば適切な分節化規則を設定して前処理させればよいのです。

PO ファイルは、原文と訳文の両方を格納できるファイル形式です。したがって、PO ファイルはプレーンテキストファイルであると同時に、翻訳メモリでもあるといえます。原文分節に対応する訳文がまだ翻訳メモリ(project_save.tmx)に存在しなければ、翻訳内容はデフォルトの対訳(基本訳文)として project_save.tmx に保存されます。もし原文分節に対応する別の訳文がすでに存在した場合、翻訳内容は(基本訳文ではなく)「例外訳文」として保存されます。

1.2. 整形されたテキストファイル

整形されたテキストファイルは、字体の種類や大きさ、色などの情報を含んでいます。ワードプロセッサーや HTML エディターで作成した文書に、よく見られます。この種のファイル形式は、文書整形に関する情報を保持するように設計されています。整形情報は、「文字を太字にする」ような単純なものから、異なる字体のサイズ、色、位置などが混在する表のような複雑なものまで、さまざまです。たいていの翻訳案件では、翻訳後の文書が原文と同じ見た目を保っているかどうかを重視します。OmegaT は整形情報を持つ文字列や単語に、扱いやすいタグを付けることで、この互換性を実現しています。原文テキストの整形を単純にしておくと、タグは減ります。もし可能であれば、文書中で使用する字体の種類や大きさ、色などをなるべく統一しておくと、翻訳作業を単純化でき、タグ関連のエラーを減らすことができます。OmegaT がファイルを処理する方法は、ファイル形式によって異なります。あるファイル形式特有の挙動は、ファイルフィルターの設定で管理できます。現在の OmegaT は、整形されたテキストファイルのうち以下の形式に対応しています:

  • ODF - OASIS Open Document Format(*.ods、*.ots、*.odt、*.ott、*.odp、*.otp)

  • Microsoft Office Open XML(*.docx、*.dotx、*.xlsx、*.xltx、*.pptx)

  • (X)HTML(*.html、*.xhtml、*.xht)

  • HTML ヘルプ コンパイラ(*.hhc、*.hhk)

  • DocBook(*.xml)

  • XLIFF(*.xlf、*.xliff、*.sdlxliff)-「原文=訳文」形式の一種

  • QuarkXPress CopyFlowGold(*.tag、*.xtg)

  • ResX ファイル(*.resx)

  • Android リソース・ファイル(*.xml)

  • LaTex(*.tex、*.latex)

  • Help(*.xml)とマニュアル(*.hmxp)ファイル

  • Typo3 LocManager(*.xml)

  • WiX ローカリゼーションファイル(*.wxl)

  • Iceni Infix(*.xml)

  • Flash の XML 出力(*.xml)

  • Wordfast TXML ファイル(*.txml)

  • Camtasia Studio for Windows(*.camproj)

  • Microsoft Visio ファイル(*.vxd)

他の形式の整形されたテキストファイルでも、OmegaT で扱うことができます。その形式にふさわしい分節化規則を持つフィルターを探して、拡張子を追加すればよいのです。

2. その他のファイル形式

上記以外のプレーンテキストファイル、または整形されたテキストファイルの場合も、OmegaT で処理できる可能性があります。

外部ツールを使って、OmegaT が対応する形式に変換すればよいのです。訳文ファイルは最終的に、逆変換で原文ファイルの形式に戻す必要がある点に留意してください。たとえば拡張子に .doc がついた旧バージョンの Microsoft Word 形式ファイルは、既存のフィルターでは開けません。しかし、以下の手順で変換すれば、翻訳作業ができます:

  • ファイルを ODF 形式に対応したプログラム(Apache OpenOffice や LibreOffice の Writer など)で開く

  • ファイルを ODT 形式で保存しなおす

  • ODT 形式ファイル(既存フィルター対応済み)を OmegaT で翻訳する

  • 翻訳後に生成した訳文ファイルを、ODF 対応プログラムで開く

  • ファイルを DOC 形式で保存しなおす

訳文ファイルの品質は、往復の変換工程によって左右されます。変換作業の前に、可能な限りのすべての設定を試すことをおすすめします。OmegaT のホームページで、翻訳支援ツールの最新リストをチェックしてください。

3. 右から左へ表記する言語

原文と訳文の分節の行端寄せをどうするかは、プロジェクトの言語によって変わります。デフォルトでは、左から右へ表記する(LTR)言語は左寄せ、右から左へ表記する(RTL)言語は右寄せです。Shift+Ctrl+O(アルファベットの O です。数字の 0 ではありません)を押すと、この表示を切り替えることができます。Shift+Ctrl+O による切り替えは以下の3通りです:

  • その言語でのデフォルトの行端寄せ

  • 左寄せ

  • 右寄せ

OmegaT で RTL モードを使用しても、作成した訳文ファイルの表示モードには何の影響も与えません。訳文ファイルの表示モードは、表示や編集に使用するプログラム(Microsoft Word のような)の中で修正する必要があります(詳細は、そのプログラムの取扱説明書を参照してください)。Shift+Ctrl+O を押すと、OmegaT 内のテキスト入力と表示の両方を、上記の3通りのいずれかに順に切り替えます。表示モードは、編集、参考訳文、用語集の3つのウィンドウそれぞれで個別に切り替えることができます。目的のウィンドウをクリックしてから、表示モードを切り替えてください。また、OmegaT にあるすべての入力フィールド(検索ウィンドウや分節化規則設定ダイアログなど)でも使用できます。

Mac OS X でも、同じ Shift+Ctrl+O を使用します(Cmd+Shift+O ではありません)。

3.1. 分節中での LTR(左から右)と RTL(右から左)文字列の混在

右から左へ表記する文章だけを入力している時は、デフォルトの(左から右への)表記が使用されます。しかし多くの場合、RTL 文章中に LTR 文章を混在させる必要が出てきます。たとえば、OmegaT が使用するタグ文字列、原文ファイルで LTR 表記された製品名、翻訳ファイル中のプレースホルダー、あるいは文章中の数値などです。このような場合、RTL(実際は両方向の)文章を適切に表示するため、RTL モードに切り替える必要があります。OmegaT を RTL モードにすると、原文と訳文の両方が RTL モードで表示される点に留意してください。仮に原文言語が LTR で訳文言語が RTL、またはその逆の場合を考えます。このとき、原文の確認、訳文の入力をそれぞれのモードでスムーズに行えるよう、RTL と LTR モードの切り替えを繰り返しながら作業する必要があるかもしれません。

3.2. RTL 分節における OmegaT タグ

上で述べたように、OmegaT が使用するタグは LTR 文字列です。RTL ⇔ LTR 言語間で翻訳作業を行うときは、原文ファイルからタグを正しく読み込み、それをまた訳文ファイルに適切に入力するため、翻訳作業者が RTL ⇔ LTR モードの切り替えを頻繁に行う必要があるかもしれません。

対象の文書にもよりますが、翻訳者に強くお勧めする点があります。原文の構成が許す限り、OmegaT 上に出てくるタグを減らすために、原文の見映えを単純化してください。「整形されたテキストを扱う」ページ末尾の「タグの取扱についてのヒント」を参照してください。起こりうる問題をなるべく見つけやすくするために、こまめにタグ検証(「タグ検証」を参照してください)を実行し、定期的に訳文生成(下記および 「メニュー」を参照してください)を実行してください。ヒント:翻訳作業はプレーンテキスト形式で行い、別のプログラムで必要な書式などを後から設定する方が、結果的には手間が省けるかもしれません。

3.3. 翻訳した RTL 文書の作成

訳文ファイルが生成されると、その表記方向は原文ファイルと同じになります。もし原文が LTR であった場合、訳文の表記方向は、表示するアプリケーション上で、手動で RTL に変更する必要があります。それぞれの出力形式によって、RTL 表記を取り扱う方法が決まります。詳細は、関連するプログラムの取扱説明書を参照してください。

.docx ファイルに関しては、以下の箇所が自動的に変更されます:

  • 段落、セクション、表は bidi に設定されます
  • Run 要素(テキスト要素)は RTL に設定されます

訳文ファイルを開くたびに表示設定を変えるという手間を避けるため、あらかじめ原文ファイルの表示設定を変えて保存しておく方法も検討してみましょう。この場合、訳文ファイルにとって適切な表示設定に合わせて、原文ファイルの表示を設定することになります。たとえば ODF ファイルはこのような変更が可能です。