Chapter 18. 词汇表

1. 用法
2. 文件格式
3. 如何创建词汇表
4. 使用Trados MultiTerm
5. 常见词汇表问题

词汇表是用于 OmegaT 的文件,它由用户手工创建和更新。

如果某个 OmegaT 项目包含一个或多个词汇表文件,当前片段中出现的任何术语将自动显示在词汇表查看器中。

您可以在项目属性对话框中设定其位置和名称。扩展名必须为.txt(若不存在,则会自动加上)。该文件的位置必须在/glossary文件夹,不过它可以在较深层的文件夹(如glossary/sub/glossary.txt)。在设置时该文件可以不存在,在添加词条时会自动创建该文件(如果需要)。如果该文件已存在,不会对其格式或字符集进行检查:新条目总是以tab分隔并使用UTF-8编码。由于不会操作已有的内容,这样对已有文件的破坏则受到了限制。

1. 用法

要使用现有的词汇表,只需在创建项目后将它放到 /glossary 目录下。在打开项目时,OmegaT 自动检测该目录下的词汇表文件。从词汇表中找到当前片段中的术语后,OmegaT 将会在词汇表窗格将它们显示出来。

Figure 18.1. 词汇表窗格

词汇表窗格

等号之前的单词是源术语,其翻译在等号(=)之后。词条可以有附加的注释。词汇表功能只能找到与词汇表条目精确匹配的词汇(也就是说不会找到变化的词形)。在翻译时可以手动添加术语到词汇表中,比如在文本编辑器中。在文件中新增的术语保存后不会马上被发现。

源术语可以不是一个单词,例如:

Figure 18.2. 词汇表中的多单词条目——示例

词汇表中的多单词条目——示例

添加了下划线的项“pop-up menu”可以在词汇表窗格找到并提示“pojavni menu”。在词汇表窗格中高亮该项,接着点击右键将其插入到当前目标片段的光标处。[1]

2. 文件格式

词汇表文件是简单的纯文本文件,包含了以制表符分隔的三列列表,其中第一和第二列分别对应源词汇和目标术语。第三列用来保存附加信息。您可以添加目标列为空的条目,即只包含源术语和注释。

词汇表文件可以使用系统缺省的编码方式(以扩展名 .tab 表示),或者 UTF-8(扩展名 .utf8)。出于显而易见的理由,Unicode 编码 (UTF8) 是首选。还支持 CSV 格式。该格式和 TAB 分隔的相同:源术语,目标术语。注释字段使用逗号 ',' 分隔开来。字符串需要括在引号 " 里面,这样可以在字符串中使用逗号:

"This is a source term, which contains a comma","c'est un terme, qui contient une virgule"

除了纯文本,还支持 TBX 格式。TBX(Term Base eXchange)是用于交换结构化术语数据的基于 XML 的开放标准,已经被LISA和ISO批准为国际标准。如果您已经有术语管理系统(例如MultiTerm),那么它很可能提供了导出 TBX 格式术语数据的功能。微软术语集 可以下载将近 100 种语言的术语,它们可以作为IT词汇表的基础。

3. 如何创建词汇表

项目设置中可以输入可写词汇表文件的名称(请参阅本章开始处)。在词汇表窗格点击右键或按下Ctrl+Shift+G来添加新条目。在打开的对话框中可以输入源术语、目标术语及注释。

词汇表文件的内容会存放到内存中,在打开或重新载入项目时加载它们。因此更新词汇表变得非常简单:按下Ctrl+Shift+G并输入新术语、其翻译及注释(确保在字段间使用了TAB)并保存文件。因此词汇表窗格的内容将会被更新。

可写词汇表的位置可在项目>属性……对话框中设定。可识别出的扩展名为TXTUTF8

注:还有其他创建含TAB分隔条目的简单文件的方法。例如没人会反对在Windows上使用Notepad++或在Linux上使用GEdit或支持此操作的一些电子表格程序:可以使用任何能处理UTF8和显示空格(这样就不会遗漏必须的TAB字符)的程序。

4. 使用Trados MultiTerm

在 Trados MultiTerm 导出的数据可以不加修改地用作 OmegaT 词汇表,只需以 .tab为扩展名,并让对应的源词汇和目标术语分别为头两个字段。如果使用 "Tab-delimited export" 系统选项导出,您必须删除头 5 列(包括编号, 创建日期等等)。新版本的 MultiTerm 支持导出为 TBX 格式。

5. 常见词汇表问题

问题:未显示词汇表术语——可能的解决方法:

  • "glossary" 目录中没有找到词汇表文件。

  • 词汇表文件为空。

  • 词条的各项间未使用 TAB 字符分隔。

  • 术语表文件未使用正确的扩展名(.tab 或 .utf8)。

  • 词汇表词条和文档中的原文未完全匹配--例如该词条是复数形式。

  • 词汇表文件没有采用正确的编码。

  • 当前片段中没有任何术语与词汇表中的术语相匹配。

  • 上述一个或多个问题已经被修正,但项目还没有被重新载入。

问题:在词汇表窗格中某些字符显示不正确。

  • ……但在编辑窗格中能正确显示这些字符:扩展名与文件编码方式不匹配。



[1] 必须注意在这种情况中,到这里只说到一半(甚至更少),因为目标语言(斯洛文尼亚语)具有词形变化。所以被插入的主格“pojavni meni”需要改变为“pojavnem meniju”,即转变为位置格。因此直接输入术语而不通过词汇表及其快捷方式可能会更快。