Chapter 11. 处理纯文本

1. 缺省编码
2. OmegaT 解决方案

1. 缺省编码

纯文本文件(在大多数情况下扩展名为 txt)只包含了文本信息,目前还没有明确的办法告诉计算机该文件包含了何种语言的内容。在这种情况下,一般 OmegaT 会假设该文本写入时使用了当前计算机所使用相同语言。这对于使用 16 位字符集 Unicode 进行编码的文件不会产生问题。然而,如果文本使用 8 位编码,那么可能会遇到这样困惑的情况:不是显示日文的文本……

相反地,系统将显示类似这样的内容:

运行 OmegaT 的电脑的缺省语言为俄语,因此它使用西里尔字符集而不是汉字字符集显示字符。

2. OmegaT 解决方案

基本上 OmegaT 中有三种方法解决这个问题。它们都与选项菜单中的文件过滤器应用程序有关。

将文件编码改为 Unicode

使用能够正确解析编码的文本编辑器打开源文件,并使用 "UTF-8" 编码保存文件。将文件扩展名由 .txt 改为 .utf8。OmegaT 会自动将文件解析为 UTF-8 文件。这是最常用的有效方案, 可最大程度减少您的问题.

指定纯文本文件的编码

即扩展名为 .txt 的文件:在文件过滤器对话框的文本文件部分,将源文件编码从<自动>修改为 .txt 文件的编码,例如对于上述例子则修改为 .jp。

修改纯文本文件的扩展名

例如对于日文纯文本文件将 .txt 修改为 .jp:在文件过滤器对话框的文本文件部分,新增一个新的源文件名模式(在此例中为 *.jp)并为该源文件和目标文件的编码选择适当的参数。

缺省情况下,OmegaT 使用下面的短名单帮助您处理一些纯文本文件:

  • .txt 文件会自动 (<自动>) 被 OmegaT 以计算机缺省的编码进行解释。

  • .txt1 是以 ISO-8859-1 进行编码的,包括绝大多数西欧语言。

  • .txt2 文件是以 ISO-8859-2 进行编码的,包括绝大多数中欧和东欧语言

  • .utf8 文件会被 OmegaT 以 UTF-8 编码进行解释(一种几乎涵盖了世界上所有语言的编码)。

可以通过在选项菜单中选择文件过滤器菜单项来检查是不是这样。比方说,当您拿到一份捷克文本文件(非常有可能使用 ISO-8859-2 编码编写),您仅需将扩展名 .txt 修改为 .txt2,而 OmegaT 将会正确地解析其内容。当然,如果您希望更加安全,可以将这类文件转换为 Unicode,即 .utf8 文件格式。