Chapter 14. Segmentation del texto fonte

1. Regulas de Segmentation
2. Prioritate del Regula
3. Creation de un regula nove
4. Alicun exemplos simplice

Le applicationes pro memoria de traduction functiona con elementos textual nominate segmentos. OmegaT ha duo manieras pro segmentar un texto: per paragrapho o per phrase (alsi referite como "segmentation basate sur le regulas”). Pro eliger le typo del segmentation, elige ProjectoProprietates... ex le menu principal e marca o leva le marca in le quadrato de controlo supplite. Le segmentation a paragrapho es avantagiose in certe casos, assi como le traductiones multo creative o stilistic in le qual le traductor pote desiderar de cambiar le ordine de phrases integre; pro le majoritate del projectos, comocunque, le segmentation a phrase es un election a preferer, pois que illo delivra concordantias melior ex le previe traductiones. Si le segmentation per phrase esseva seligite, tu pote prefixar le regulas con OptionesSegmentation...del menu principal.

Son jam disponibile regulas de segmentation utile pro plurime linguas, assi il es verisimile que tu non necessitara de ser implicate con le scriptura de tu proprie regulas de segmentation. Per altere latere iste functionalitate pote esser multo utile in casos particular, ubi tu pote accrescer tu productivitate accordante le regulas de segmentation al texto fonte a traducer.

Advertimento: viste que le texto essera segmentate differentemente post que le optiones del filtro esseva cambiate, ergo tu pote deber reinitiar a render de zero. Al mesme tempore le segmentos valide antea in le memoria de traduction del projecto essera convertite a segmentos orphane. Si tu cambia le optiones de segmentation dum un projecto es aperte, tu debe recargar le projecto pro que le cambiamentos sume effecto.

OmegaT usa le sequentia de grados sequente:

Segmentation a nivello de structura

OmegaT in prime loco analysa le texto pro le segmentation a nivello de structura. Durante iste processo il es solmente le structura del file fonte que es usate pro generar le segmentos.

Per exemplo, le files de texto pote esser segmentate sur interruptiones de linea, lineas vacue, o non esser segmentate del toto. Le files continente formattation (documentos ODF, documentos HTML, et cetera) son segmentate sur le tags de nivello de bloco (paragrapho). Le attributos de objecto traducibile in le files XHTML o HTML pote esser extrahite como segmentos separate.

Segmentation a nivello de phrase

Post le segmentation del file fonte in unitates structural, OmegaT segmentara iste blocos ulteriormente in phrases.

1. Regulas de Segmentation

Le processo de segmentation pote esser illustrate assi: le cursor move se secundo le texto, un character a un vice. A cata position del cursor, le regulas, consistente de un modello Ante e Post , son applicate in lor ordine date pro vider si alicun del modellos Ante es valide pro le texto sur le sinistra e le correspondente modello Post pro le texto al dextra del cursor. Si le regula concorda, o le cursor move se super sin inserer un interruption de segmento (pro un regula de exception) o es create un interruption de segmento nove al position del cursor actual (pro le regula de interruption).

Le duo typos de regulas conduce se como seque:

Regula de interruption

Separa le texto fonte in segmentos. Per exemplo, "Did it make sense? I was not sure." debe esser fisse in duo segmentos. Pro que isto accide, ibi debe esser un regula de interruption pro le "?", quando sequite per spatios e un parola majuscule. Pro definir un regula qual regula de interruption, marca le quadrato de controlo Interruption/Exception.

Regula exception

specifica qual partes de texto NON debe ser separate. Nonobstante le periodo, "Mrs. Dalloway " non debe ser fisse in duo segmentos, assi un regula de exception debe esser establite pro Mrs (e pro Mr, pro Dr, pro prof et cetera), sequite per un periodo. Pro definir un regula qual regula de exception, lassa le quadrato de controlo Interruption/Exception non marcate.

Le regulas de interruption prefixate debe esser bastante pro le major parte del linguas europee e le japonese. In vista del flexibilitate, tu pote considerar de definir plus de regulas de exception pro tu lingua fonte, pro suppler segmentos plus significative e coherente.

2. Prioritate del Regula

Omne le collectiones de regula de segmentation pro un modello de lingua que concorda es active e son applicate in le ordine date de prioritate, assi le regulas pro un lingua specific debe esser superior in ordine de prioritate que los base. Per exemplo, le regulas pro le francese canadian (FR-CA) debe esser superior que le regulas pro le francese (FR.*), e superior que los Base (.*) . Assi, quando tu rende ab francese canadian, le regulas pro francese canadian - si alicun ha - essera applicate antea, sequite per le regulas pro le francese e in fin, per le regulas base.

3. Creation de un regula nove

Major cambiamentos al regulas de segmentation debe esser generalmente evitate, in modo special post le completamento del prime minuta, sed cambiamentos minor, qual addition de un abbreviation admittite, pote esser avantagiose.

Pro modificar o expander un collection de regulas existente, clicca simplemente sur illo in le summitate del tabella. Le regulas pro ce collection apparera in le medietate basse del fenestra.

Pro crear un collection de regulas vacue pro un modello de lingua nove clicca Adder in le medietate superior del fenestra de dialogo. Un linea vacue apparera al fundo del tabella superior (tu pote deber rolar in basso pro vider lo). Cambia le nomine del collection de regula, le modello de lingua al lingua concernite e su codice (vide Appendix A, Linguas - lista del codices ISO 639 pro un lista del codices de lingua). Le syntaxe del schema del lingua se conforma al syntaxe del expression regular. Si tu collection de regulas tracta un copula lingua-pais, nos avisara te a mover lo al summitate per le button Mover in alto.

Adder le modellos Ante e Post. Pro verificar lor syntaxe e lor applicabilitate, il es consiliabile usar instrumentos que permitte te pro vider lor effecto directemente. Vide le capitulo re le Expressiones regular. Un bon puncto de initio essera semper le regulas existente.

4. Alicun exemplos simplice

Intention Ante Post Nota
Impone que le segmento initia post un periodo ('.') sequite per un spatio, tabulation ... \. \s "\." sta pro le character periodo. "\s" significa qualcunque character spatio blanc (spatio, tabulation, pagina nove et cetera.)
Non segmentar post Mr. Mr\. \s Isto es un regula de exception, ergo le quadrato de controlo del regula non debe ser marcate
Prefixa un segmento post "。" (periodo japonese)   Nota que post es vacue
Non segmentar post M. Mr. Mrs. e Ms. Mr??s??\. \s Regula de exception - vide le uso del ? in expressiones regular