纯文本文件(在大多数情况下扩展名为 txt)只包含了文本信息,目前还没有明确的办法告诉计算机该文件包含了何种语言的内容。在这种情况下,一般 OmegaT 会假设该文本写入时使用了当前计算机所使用相同语言。这对于使用 16 位字符集 Unicode 进行编码的文件不会产生问题。然而,如果文本使用 8 位编码,那么可能会遇到这样困惑的情况:不是显示日文的文本……
相反地,系统将显示类似这样的内容:
运行 OmegaT 的电脑的缺省语言为俄语,因此它使用西里尔字符集而不是汉字字符集显示字符。
基本上 OmegaT 中有三种方法解决这个问题。它们都与选项菜单中的文件过滤器应用程序有关。
使用能够正确解析编码的文本编辑器打开源文件,并使用 "UTF-8" 编码保存文件。将文件扩展名由 .txt
改为 .utf8。
OmegaT 会自动将文件解析为 UTF-8 文件。这是最常用的有效方案, 可最大程度减少您的问题.
即扩展名为 .txt
的文件:在文件过滤器对话框的文本文件部分,将源文件编码从<自动>修改为 .txt
文件的编码,例如对于上述例子则修改为 .jp。
例如对于日文纯文本文件将 .txt
修改为 .jp
:在文件过滤器对话框的文本文件部分,新增一个新的源文件名模式(在此例中为 *.jp
)并为该源文件和目标文件的编码选择适当的参数。
缺省情况下,OmegaT 使用下面的短名单帮助您处理一些纯文本文件:
.txt
文件会自动 (<自动>) 被 OmegaT 以计算机缺省的编码进行解释。
可以通过在选项菜单中选择文件过滤器菜单项来检查是不是这样。比方说,当您拿到一份捷克文本文件(非常有可能使用 ISO-8859-2 编码编写),您仅需将扩展名 .txt
修改为 .txt2
,而 OmegaT 将会正确地解析其内容。当然,如果您希望更加安全,可以将这类文件转换为 Unicode,即 .utf8
文件格式。