Segmentació del text de partida

Les eines de memòria de traducció treballen amb unitats de text anomenades segments. L'OmegaT ofereix dues maneres de segmentar un text: segmentació per paràgrafs i segmentació per frases. Per seleccionar el tipus de segmentació, seleccioneu Projecte → Propietats... al menú principal i utilitzeu la casella de selecció corresponent. Tingueu en compte que la segmentació per paràgrafs és força obsoleta; per a la majoria de projectes, és preferible utilitzar la segmentació per frases. Si heu seleccionat la segmentació per frases, podeu configurar-ne les regles seleccionant Opcions → Segmentació... al menú principal.

Tingueu en compte que s'ha emprat molt de temps en el desenvolupament de regles de segmentació fiables; així doncs, per a la majoria dels casos no us caldrà modificar-les ni afegir-ne de pròpies. D'altra banda, aquesta funcionalitat és molt útil en casos especials, ja que us permet traduir només allò que cal traduir sense córrer el risc de canviar allò que ha de romandre invariable.

Avís! Si canvieu les opcions de filtres quan hi ha un projecte obert, es pot produir una pèrdua de dades. Si canvieu les opcions de segmentació quan hi ha un projecte obert, caldrà que torneu a carregar el projecte per tal d'aplicar els canvis.


Segmentació a nivell d'estructura

L'OmegaT primer analitza el text per trobar la segmentació a nivell d'estructura. Durant aquest procés, només s'utilitza l'estructura del fitxer de partida per produir segments.

Per exemple, els fitxers de text poden segmentar-se per salts de línia, per línies buides o bé no segmentar-se de cap manera. Els fitxers amb format (documents de l'OpenOffice.org, documents HTML, etc.) es segmenten a partir de les etiquetes de bloc (paràgraf). Els atributs traduïbles d'objectes en fitxers XHTML o HTML es poden extreure en segments separats.


Segmentació a nivell de frase

Un cop segmentat el fitxer de partida en unitats lògiques, l'OmegaT segmentarà addicionalment aquests blocs en frases.

Regles de segmentació

El procés de segmentació es pot il·lustrar d'aquesta manera: imagineu-vos que el cursor es va movent al llarg del text, caràcter per caràcter. A cada posició del cursor, s'aplica cada regla en l'ordre especificat per veure si el Patró previ es pot aplicar al text situat a l'esquerra del cursor, i el Patró posterior al text situat a la dreta. Si la regla es pot aplicar, el programa atura l'exploració de regles (si es tracta d'una regla d'excepció) o crea un segment nou (si es tracta d'una regla de divisió).

La segmentació per frases s'ha implementat amb l'ajuda de l'estàndard SRX (Segmentation Rules eXchange, intercanvi de regles de segmentació); no obstant això, tingueu en compte que l'OmegaT no és compatible amb totes les funcions d'SRX. No es poden importar ni exportar les regles definides amb format SRX. Però si enteneu com funciona l'SRX, ja sabreu com realitza la segmentació l'OmegaT.

Hi ha dos tipus de regles:

Les regles de divisió predefinides haurien de ser suficients per a la majoria de les llengües europees i per al japonès. Donada la gran flexibilitat, és recomanable que definiu més regles d'excepció per a la llengua a partir de la qual traduïu, per tal d'obtenir segments més significatius i coherents.

Configuració de les regles

Prioritat

Tots els conjunts de regles de segmentació que coincideixin amb un Patró de llengua s'aplicaran en l'ordre que es mostra al diàleg; per tant, les regles d'una llengua específica han de col·locar-se més amunt que les regles per defecte. Per exemple, les regles del francès de Canadà (FR-CA) haurien d'estar per sobre de les regles del francès (FR.*) i per sobre de les regles Per defecte (.*). D'aquesta manera, quan traduïu al francès de Canadà, el projecte utilitzarà primer les regles definides per a aquesta llengua; a continuació, les regles del francès i, finalment, les regles Per defecte.

Creació de regles

Per editar o ampliar un conjunt de regles existent, feu-hi clic a la taula de la part superior. Les regles del conjunt apareixeran a la part de sota de la finestra.

Per crear un conjunt de regles buit per un patró de llengua nou, feu clic a Afegeix de la part de dalt del diàleg. Apareixerà una línia buida al final de la taula superior (pot ser que us hàgiu de desplaçar cap avall per veure-la). Canvieu el nom del conjunt de regles i el patró de llengua. La sintaxi del patró de llengua respecta la sintaxi d'una expressió regular. Si el conjunt de regles correspon a una parella de llengua-país, es recomana que el col·loqueu al capdamunt mitjançant el botó Mou cap amunt

Divisió/Excepció

La casella de selecció Divisió/Excepció determina si es tracta d'una regla de divisió (casella de selecció activada) o d'una regla d'excepció (casella de selecció desactivada). Les expressions regulars dels camps Patró previ i Patró posterior especifiquen el text que ha d'aparèixer abans i després d'una posició per tal que s'inclogui en la regla d'excepció o de divisió.

Exemples senzills

Objectiu

Abans

Després

Nota

Definir un segment després d'un punt («.») i abans d'un espai

\.

\s

«\.» representa el caràcter «.» i «\s» representa qualsevol caràcter d'espai en blanc

No segmentar després de Mr.

Mr\.

\s

És una regla d'excepció i, per tant, la casella de selecció cal que estigui desactivada

Definir un segment després de «。» (punt japonès)

Fixeu-vos que després és buit

No segmentar després de M. Mr. Mrs. i Ms.

Mr??s??\.

\s

Regla d'excepció - vegeu l'ús de ? en expressions regulars (quantificador «no voraç»)


Construccions d'expressions regulars

Les expressions regulars que podeu utilitzar en les regles de segmentació són les que permet el Java. Hi ha disponible un breu resum a l'apèndix Construccions d'expressions regulars. Si necessiteu informació més específica, visiteu http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html.

Podeu trobar guies d'aprenentatge senzilles al web (per exemple, http://www.regular-expressions.info/quickstart.html).


Avisos legals Inici Índex