Chapter 14. Segmentazione del documento originale

1. Regole di segmentazione
2. Priorità delle regole
3. Creazione di una nuova regola
4. Alcuni semplici esempi

Gli strumenti della memoria di traduzione operano su unità di testo definite “segmenti”. OmegaT utilizza due metodi per segmentare un testo: la segmentazione a livello di paragrafo e quella a livello di frase (chiamata anche “segmentazione basata su regole”). Per selezionare il tipo di segmentazione, selezionare ProgettoProprietà... dalla barra dei menu e attivare o disattivare l'appropriata casella di controllo. La segmentazione a livello di paragrafo è utile in alcune situazioni, per esempio nelle traduzioni con stile o altamente creative, in cui il traduttore ritiene di dover cambiare l'ordine di intere frasi: per la maggior parte dei progetti, tuttavia, la segmentazione a livello di frase è da preferirsi, dato che restituisce concordanze migliori dalle traduzioni precedenti. Se si seleziona la segmentazione a livello di frase, è possibile impostarne le regole dal menu principale OpzioniSegmentazione....

Sono già disponibili regole di segmentazione affidabili per molte lingue, dunque molto probabilmente non si dovrà impegnare tempo a scrivere le proprie regole di segmentazione. D'altro lato, questa funzionalità può essere molto utile nei particolari casi in cui è possibile incrementare la propria produttività regolando le regole di segmentazione in base al testo da tradurre.

Attenzione: dato che il testo verrà segmentato in modo diverso dopo aver modificato le opzioni dei filtri, è possibile dover iniziare da zero la traduzione. Allo stesso tempo, i segmenti precedenti ritenuti validi, nella memoria di traduzione del progetto verranno trasformati in segmenti orfani. Se si modificano le opzioni di segmentazione mentre un progetto è aperto, affinché le modifiche siano attivate il progetto va ricaricato.

OmegaT usa i seguenti passaggi:

Segmentazione a livello di struttura

OmegaT prima analizza il testo alla ricerca di una segmentazione a livello della struttura. Nel corso di questo processo, per la generazione dei segmenti, viene utilizzata solo la struttura del testo di partenza.

Per esempio, i file di testo possono essere segmentati in corrispondenza delle interruzioni di riga, in base alle righe vuote oppure potrebbero non venire affatto segmentati. I file contenenti formattazione (documenti ODF, HTML, ecc.) sono segmentati in base ai tag a livello di blocco (paragrafi). Gli attributi dell'oggetto traducibile nei file XHTML o HTML possono essere estratti come segmenti separati.

Segmentazione a livello di frase

Dopo aver ultimato la segmentazione del file di partenza in unità strutturali, OmegaT avvierà un'ulteriore segmentazione di tali blocchi in frasi.

1. Regole di segmentazione

Il processo di segmentazione può essere raffigurato nel modo seguente: il cursore si sposta lungo il testo, un carattere alla volta. Ad ogni posizione del cursore vengono applicate le regole, che consistono di un modello Prima e Dopo, nell'ordine dato al fine di verificare se tutti i modelli Prima sono validi per il testo alla sinistra del cursore e il corrispondente modello Dopo per il testo alla destra del cursore. Se esiste una corrispondenza con la regola, o il cursore passa oltre senza inserire un'interruzione di segmento (per una regola di eccezione), oppure viene creata una nuova interruzione di segmento alla posizione attuale del cursore (per la regola di interruzione).

Le due regole si comportano nel modo spiegato di seguito:

Regola di interruzione

Separa il testo di origine in segmenti. Per esempio, la frase "Did it make sense? I was not sure." dovrebbe essere divisa in due segmenti. Affinché questo accada, deve esserci una regola di interruzione per "?", quando seguito da spazi e una parola che inizia per maiuscola. Per definire una regola d'interruzione, spuntare la casella Interruzione/Eccezione.

Regola di eccezione

definisce quali parti del testo NON devono essere separate. Nonostante il punto, "Sig. Rossi" non dovrebbe essere separato in due segmenti e dovrebbe essere una regola di eccezione per Sig (come pure per Dott., Ing. Avv. e via discorrendo), seguita da un punto. Per definire una regola d'interruzione, lasciare disattivata la casella Interruzione/Eccezione.

Le regole d'interruzione predefinite dovrebbero essere sufficienti per la maggior parte delle lingue europee e per il giapponese. Data la loro flessibilità, è possibile considerare di definire ulteriori regole di eccezione per la lingua da cui si traduce, al fine di ottenere segmenti più comprensibili e coerenti.

2. Priorità delle regole

Tutte le serie di regole di segmentazione corrispondenti a un modello linguistico sono attive e applicate in un ordine di priorità specifico e, pertanto, sarà necessario che le lingue dalle quali comunemente si traduce si trovino in una posizione precedente rispetto a quelle presenti in modo predefinito. Per esempio, le regole per il francese del Canada (FR-CA) dovrebbero precedere quelle per il francese comune (FR.*) e anche quelle predefinite (.*). Ossia, quando si traduce dal francese del Canada, le regole relative, se presenti, dovranno essere applicate per prime, seguite da quelle per il francese comune e, infine, da quelle predefinite.

3. Creazione di una nuova regola

In genere si dovrebbe evitare di apportare grosse modifiche alle regole di segmentazione, in particolar modo dopo il completamento di una prima bozza di traduzione, ma potrebbero essere utili modifiche minori, come l'aggiunta di un'abbreviazione riconosciuta.

Per modificare o espandere un gruppo esistente di regole, basta farvi clic sopra nella tabella in alto. Le regole di quel gruppo verranno visualizzate nella metà inferiore della finestra di dialogo.

Per creare un gruppo vuoto di regole per un nuovo modello linguistico, fare clic sul pulsante Aggiungi nella metà superiore della finestra di dialogo. Apparirà una riga vuota nel fondo della tabella superiore (potrebbe rendersi necessario scorrere la tabella per visualizzare la riga). Cambiare il nome del gruppo di regole e del modello linguistico nella lingua interessata e il suo codice di lingua (vedere Appendix A, Lingue - elenco codice ISO 639 per l'elenco dei codici). La sintassi del modello della lingua è conforme a quella delle espressioni regolari. Nel caso in cui la serie di regole gestisca una coppia lingua-nazione, si consiglia di usare il pulsante Sposta in alto.

Aggiungere i modelli Prima e Dopo. Per verificare la loro sintassi e applicabilità, è opportuno usare strumenti che consentono di osservare direttamente il loro risultato. Si veda il capitolo sulle Espressioni regolari. Un buon punto di partenza sono sempre le regole esistenti.

4. Alcuni semplici esempi

Scopo Prima Dopo Nota
Impostare il segmento di inizio dopo un punto ('.') seguito da uno spazio, tabulazione... \. \s "\." indica il carattere punto. "\s" indica qualsiasi carattere di spazio vuoto (spazio, tabulazione, nuova pagina, ecc.)
Non segmentare dopo Sig. Sig\. \s Questa è una regola di eccezione, dunque la casella non deve essere spuntata
Impostare un segmento dopo "。" (punto giapponese)   Si noti che dopo è vuoto
Non segmentare dopo M. Mr. Mrs. e Ms. Mr??s??\. \s Regola di eccezione - si veda l'uso di ? nelle espressioni regolari