附录 B. 词汇表

1. 用法
2. 文件格式
3. 如何创建词汇表
4. 重点词汇表
5. 常见词汇表问题

词汇表是手工创建与更新的用于 OmegaT 的文件。

如果 OmegaT 项目包含一个或多个词汇表文件,当前片段中出现的所有位于词汇表中的词汇将自动显示在词汇表查看器中。

您可以在项目属性对话框中定义其位置和名称。其扩展名必须为.txt.utf8(如果不是的话,则会添加)。文件必须位于 /glossary 文件夹内,但可以位于更深的文件夹中(例如:glossary/sub/glossary.txt)。在设置时该文件可以不存在,当添加词条时会自动创建该文件(如果需要)。如果该文件已存在,不会尝试验证其格式或字符集:新条目将始终使用以制表符分隔的格式和 UTF-8 编码。由于不会触及已有的内容,因此限制了对已有文件的破坏。

1. 用法

要使用现有的词汇表,只需在创建项目后将其放在 /glossary 文件夹中。OmegaT 会在打开项目时自动检测此文件夹中的词汇表文件。OmegaT 在当前片段中找到的词汇表文件中的词汇会显示在词汇表窗格中:

图 B.1. 词汇表窗格

词汇表窗格

等号(=)之前的单词是原文词汇,等号后面的词是其翻译。可以为词条添加注释。词汇表功能只会查找与词条完全一致的匹配(例如,不会查找词形变化后的形式)。在翻译期间可以手工往词汇表文件中添加新词汇,比如用文本编辑器。新添加的词汇并不会在保存了修改后的文本文件后立刻识别出来。

源词汇可以不是单个单词,如下面示例所示:

图 B.2. 词汇表中的多单词条目 - 示例

词汇表中的多单词条目 - 示例

在词汇表窗格中可以找到片段中带下划线的“pop-up menu”条目,其翻译为“pojavni menu”。在词汇表窗格中高亮标记之,然后右键点击可将其插入到译文片段中当前光标位置处。[1]

2. 文件格式

词汇表文件是简单的纯文本文件,内含以制表符分隔的三列列表,第一列和第二列分别是原文词汇和译文词汇。第三列则可用于其他信息。你可以添加没有译文那一列的条目,也就是说只包含原文词汇和注释。

词汇表的编码是自动确定的。当然,编码必须同时兼容其所包含的两种语言,因此推荐使用 Unicode。

还支持 CSV 格式。该格式和制表符分隔的格式一样:原文词汇、译文词汇。注释字段则以逗号“,”分隔。字符串可以用引号“"”括起来,这样就允许字符串内部出现逗号:

"This is a source term, which contains a comma","c'est un terme, qui contient une virgule"

除了纯文本格式,还支持将 TBX 格式作为只读词汇表格式。.tbx 文件的位置必须在 /glossary 文件夹内,但它可以位于更深的文件夹中(例如,glossary/sub/MyGlossary.tbx)。

TBX——即 Term Base eXchange ——是用于交换结构化术语数据的基于 XML 的开放标准,TBX 已被 LISA 和 ISO 批准为国际标准。如果你已经有术语处理系统,它就很可能以 TBX 格式提供术语数据导出。有近百种语言的 Microsoft Terminology Collection(Microsoft 术语集)可供下载,可作为基础 IT 词汇表。

注意:MultiTerm 所输出的 .tbx 似乎不太可靠(2013 年 11 月),建议改用 MultiTerm 的 .tab 输出。

3. 如何创建词汇表

项目设置中允许输入可写词汇表文件的名字(参见本章开头)。在词汇表窗格中点击右键或按 Ctrl+Shift+G 来添加新条目。会打开一个对话框,让你输入原文词汇、译文词汇和想要写下的注释:

词汇表文件的内容是在在打开或重新载入项目时加载的,并存放在内存中。因此,更新词汇表文件非常简单:按 Ctrl+Shift+G 并输入新词汇、其翻译以及你想要写下的注释(确保在字段之间按了 Tab 键)并保存文件。词汇表窗格的内容将相应更新。

可以在 项目 > 属性... 对话框中设置可写词汇表文件的位置。可识别的扩展名为 TXTUTF8

注:当然还有其他其他方法和手段可以创建含有以制表符分隔的条目的文件。比如说在 Windows 上可以用 Notepad++, 在 Linux 上可以用 GEdit,或者还可以用一些电子表格程序:可以用任意能够处理 UTF-8(或 UTF-16 LE)并能显示空白字符(这样就不会漏掉必要的制表符)的程序。

4. 重点词汇表

来自重点词汇表(默认为 glossary/glossary.txt)的结果在词汇表窗格和翻译建议中会靠前显示。

由于条目可能混合有来自重点与非重点词汇表中的词汇,因此来自重点词汇表中的词汇以粗体显示。

5. 常见词汇表问题

问题:不显示词汇表词汇——可能的原因:

  • 在 “glossary” 文件夹中没找到词汇表文件。

  • 词汇表文件为空。

  • 条目不是以制表符分隔的。

  • 词汇表文件没有正确的扩展名(.tab、.utf8 或 .txt)。

  • 词汇表的词条和文档中的原文文本之间并不是“精确”匹配——比如,复数形式。

  • 词汇表文件没有采用正确的编码。

  • 当前片段中没有词汇和与词汇表中的词汇相匹配。

  • 已修正了若干以上问题,但还未重新载入项目。

问题:在术语表窗格中某些字符显示不正确

  • ……但这些字符在编辑窗格中能正确显示:扩展名与文件编码不一致。



[1] 注意在上面这个例子中,到此只把事情做了一半(甚至可能还不到一半),因为译文语言(斯洛文尼亚语)具有词形变化。所以插入的主格形式的“pojavni meni”必须改为“pojavnem meniju”,即方位格形式。所以抛开词汇表与其快捷方式而直接输入正确地输入词汇可能反而会更快。