翻译记忆工具的使用以叫做片段的文本为单位。OmegaT 使用两种方式对文本进行片段分割:段落分割或句子分割(也被称为“基于分割的规则”)。要选择分割类型,请从主菜单选择 → ,然后选用选中或取消选中相应的复选框。在某些情况中使用段落分割是有好处的,例如在与创造性和文学性高度相关的翻译中,译员可能需要改变整个段落的顺序;然而,对于大多数项目,应优先选择句子分割,因为这样可以与以前的翻译实现更好的匹配。如果选用了句子分割,可通过从主菜单选择 → 以设置规则。
许多语言中已经包含了可靠的分割规则,所以很可能您不需要自己编写分割规则。另一方面,该功能在特殊情况下可能非常有用,您可以针对需要翻译的文本设置分割规则来提高生产力。
警告:由于在改变过滤器选项后将对文本进行不同的分割,所以您可能需要从原文开始进行翻译。同时,在项目翻译记忆中原来有效的片段将变成孤立片段。如果您在项目打开的时候改变分割规则选项,您必须重新载入项目以使改变生效。
OmegaT 使用下列步骤:
片段分割过程可描绘如下:光标沿着文本移动,每次一个字符。在每个光标位置,由 之前和之后的模式组成的规则以指定的顺序应用,即对左边的文本使用之前模式同时对光标右边的文本使用 之后 模式。如果规则匹配,光标继续移动而不进行分割(对于例外规则)或者创建一个新片段(为中断规则)。
两种类型的规则表现如下:
对于绝大多数欧洲语言和日语来说,预定义的中断规则已经够用了。从灵活性的角度看,您可能考虑为要翻译的语种定义更多的例外规则,以获取语意更完整也更连贯的片段。
为匹配的语言模式定义的所有片段分割规则会按照规定的优先级别得到应用,因此为特定语言定义的规则优先级会比缺省规则要高。例如,为加拿大法语 (FR-CA) 创建的规则优先级应该比为法语 (FR.*) 创建规则的优先级要高,也比缺省规则(.*) 要高。因此,在翻译加拿大法语时,会首先应用加拿大法语规则(如果存在的话),接着是法语规则,最后为缺省规则。
一般应避免对分割规则进行大幅调整,尤其在开始翻译后,但进行细微修正,例如加上识别的缩略语,可能会有好处。
要编辑或扩展现有规则集合,仅需在上面的表格中打开它。规则集合将出现在窗口的下半部分。
要为某新语种模式创建空的规则集合,在对话框的上半部分点击新增。上方表格的底部将出现一条空行(您可能需要向下滚动才能看到它)。修改规则集的名称和语言模式到相关的语言及其代码(请参阅Appendix A, 语言-ISO 639 代码列表 语言代码列表)。语言模式的语法遵循正则表达式的语法规则。如果您设置了规则集来处理语言——国家对,我们建议您使用上移按钮将它移到顶部。
添加之前和之后模式。要检查它们的语法和适用性,建议使用工具来直接查看效果。请参阅正则表达式章节。了解现有的规则总是个很好的起点。