Chapter 11. 处理纯文本
Prev		Next

Chapter 11. 处理纯文本

1. 缺省编码
2. OmegaT 解决方案

1. 缺省编码

纯文本文件（在大多数情况下扩展名为 txt）只包含了文本信息，目前还没有明确的办法告诉计算机该文件包含了何种语言的内容。在这种情况下，一般 OmegaT 会假设该文本写入时使用了当前计算机所使用相同语言。这对于使用 16 位字符集 Unicode 进行编码的文件不会产生问题。然而，如果文本使用 8 位编码，那么可能会遇到这样困惑的情况：不是显示日文的文本……

相反地，系统将显示类似这样的内容：

运行 OmegaT 的电脑的缺省语言为俄语，因此它使用西里尔字符集而不是汉字字符集显示字符。

2. OmegaT 解决方案

基本上 OmegaT 中有三种方法解决这个问题。它们都与选项菜单中的文件过滤器应用程序有关。

将文件编码改为 Unicode: 使用能够正确解析编码的文本编辑器打开源文件，并使用 "UTF-8" 编码保存文件。将文件扩展名由 .txt 改为 .utf8。OmegaT 会自动将文件解析为 UTF-8 文件。这是最常用的有效方案, 可最大程度减少您的问题.

指定纯文本文件的编码: 即扩展名为 .txt 的文件：在文件过滤器对话框的文本文件部分，将源文件编码从<自动>修改为 .txt 文件的编码，例如对于上述例子则修改为 .jp。

修改纯文本文件的扩展名: 例如对于日文纯文本文件将 .txt 修改为 .jp：在文件过滤器对话框的文本文件部分，新增一个新的源文件名模式（在此例中为 *.jp）并为该源文件和目标文件的编码选择适当的参数。

缺省情况下，OmegaT 使用下面的短名单帮助您处理一些纯文本文件：

.txt 文件会自动 (<自动>) 被 OmegaT 以计算机缺省的编码进行解释。

.txt1 是以 ISO-8859-1 进行编码的，包括绝大多数西欧语言。

.txt2 文件是以 ISO-8859-2 进行编码的，包括绝大多数中欧和东欧语言

.utf8 文件会被 OmegaT 以 UTF-8 编码进行解释（一种几乎涵盖了世界上所有语言的编码）。

可以通过在选项菜单中选择文件过滤器菜单项来检查是不是这样。比方说，当您拿到一份捷克文本文件（非常有可能使用 ISO-8859-2 编码编写），您仅需将扩展名 .txt 修改为 .txt2，而 OmegaT 将会正确地解析其内容。当然，如果您希望更加安全，可以将这类文件转换为 Unicode，即 .utf8 文件格式。

Prev		Next
Chapter 10. 编辑行为	Home	Chapter 12. 处理格式化文本