Chapter 14. 源片段分割规则

1. 片段分割规则
2. 规则的优先级
3. 创建新规则
4. 一些简单的例子

翻译记忆工具的使用以叫做片段的文本为单位。OmegaT 使用两种方式对文本进行片段分割:段落分割或句子分割(也被称为“基于分割的规则”)。要选择分割类型,请从主菜单选择项目属性……,然后选用选中或取消选中相应的复选框。在某些情况中使用段落分割是有好处的,例如在与创造性和文学性高度相关的翻译中,译员可能需要改变整个段落的顺序;然而,对于大多数项目,应优先选择句子分割,因为这样可以与以前的翻译实现更好的匹配。如果选用了句子分割,可通过从主菜单选择选项片段分割……以设置规则。

许多语言中已经包含了可靠的分割规则,所以很可能您不需要自己编写分割规则。另一方面,该功能在特殊情况下可能非常有用,您可以针对需要翻译的文本设置分割规则来提高生产力。

警告:由于在改变过滤器选项后将对文本进行不同的分割,所以您可能需要从原文开始进行翻译。同时,在项目翻译记忆中原来有效的片段将变成孤立片段。如果您在项目打开的时候改变分割规则选项,您必须重新载入项目以使改变生效。

OmegaT 使用下列步骤:

结构层片段分割

OmegaT 首先将文本分割成结构级别的片段。在这个过程中,只有源文本的结构被用于创建片段。

例如:文本文件可能会在行终止、空行进行片段分割或根本进行分割。格式化文件(ODF文档、HTML 文档等等)在块级别(段落)标签处进行分割。XHTML 或 HTML 文件的可翻译对象属性可以被提取为独立的片段。

语句级分割

在将源文件分割为结构单元之后, OmegaT 将进一步把这些块分割为语句。

1. 片段分割规则

片段分割过程可描绘如下:光标沿着文本移动,每次一个字符。在每个光标位置,由 之前之后的模式组成的规则以指定的顺序应用,即对左边的文本使用之前模式同时对光标右边的文本使用 之后 模式。如果规则匹配,光标继续移动而不进行分割(对于例外规则)或者创建一个新片段(为中断规则)。

两种类型的规则表现如下:

中断规则

将源文本分割为片段。例如,"Did it make sense?I was not sure." 应该分割成两个句子。要实现这样的目的,应该在 "?" 后跟着空格和大写字符时进行中断的规则。要定义一个中断规则,请选中中断/例外复选框。

例外规则

指定哪部分文本不应该被分开。不考虑句点的话, "Mrs. Dalloway " 不应被分割成两个片段,因此应该为后面跟着句点的 Mrs (以及 Mr 和 Dr 、prof 等等) 创建例外规则。要定义例外规则,请取消选中中断/例外复选框。

对于绝大多数欧洲语言和日语来说,预定义的中断规则已经够用了。从灵活性的角度看,您可能考虑为要翻译的语种定义更多的例外规则,以获取语意更完整也更连贯的片段。

2. 规则的优先级

为匹配的语言模式定义的所有片段分割规则会按照规定的优先级别得到应用,因此为特定语言定义的规则优先级会比缺省规则要高。例如,为加拿大法语 (FR-CA) 创建的规则优先级应该比为法语 (FR.*) 创建规则的优先级要高,也比缺省规则(.*) 要高。因此,在翻译加拿大法语时,会首先应用加拿大法语规则(如果存在的话),接着是法语规则,最后为缺省规则。

3. 创建新规则

一般应避免对分割规则进行大幅调整,尤其在开始翻译后,但进行细微修正,例如加上识别的缩略语,可能会有好处。

要编辑或扩展现有规则集合,仅需在上面的表格中打开它。规则集合将出现在窗口的下半部分。

要为某新语种模式创建空的规则集合,在对话框的上半部分点击新增。上方表格的底部将出现一条空行(您可能需要向下滚动才能看到它)。修改规则集的名称和语言模式到相关的语言及其代码(请参阅Appendix A, 语言-ISO 639 代码列表 语言代码列表)。语言模式的语法遵循正则表达式的语法规则。如果您设置了规则集来处理语言——国家对,我们建议您使用上移按钮将它移到顶部。

添加之前之后模式。要检查它们的语法和适用性,建议使用工具来直接查看效果。请参阅正则表达式章节。了解现有的规则总是个很好的起点。

4. 一些简单的例子

目的 前模式 后模式 说明
设置在句点(‘.’)后跟着空格、Tab等的位置后开始新片段。 \. \s “\.”表示句点字符。“\s”表示任意空白字符(空格、Tab、新行符等)。
不要在Mr.后进行分割 Mr\. \s 这是一条例外规则,因此必须取消选中规则的复选框。
在“。”(日文句点)后进行分割   注意后模式规则是空的
不要对M.、Mr.、Mrs.、和Ms.之后的内容进行分割 Mr??s??\. \s 例外规则——请查阅?在正则表达式中的用途