Chapter 11. Lavorazione di file di solo testo

1. Codifica predefinita
2. La soluzione OmegaT

1. Codifica predefinita

I file di solo testo - nella maggior parte dei casi sono file con un'estensione .txt - contengono solo informazioni di tipo testuale e non offrono al computer un metodo chiaro per capire quale lingua è in essi contenuta. Tutto quello che OmegaT può fare, in tali casi, è presupporre che il testo sia scritto nello stessa lingua usata dal sistema operativo. Questo non è un problema per i file con un set di caratteri a codifica in Unicode 16 bit. Tuttavia, se il testo è codificato a 8 bit, è possibile trovarsi di fronte alla seguente difficile situazione: anziché visualizzare, per i caratteri giapponesi, il testo...

...il sistema lo mostrerà come questo, per esempio:

Il computer che esegue OmegaT ha come lingua predefinita il Russo, dunque presenta i caratteri nell'alfabeto cirillico e non in Kanji.

2. La soluzione OmegaT

Ci sono fondamentalmente tre modi per affrontare questo problema in OmegaT. Tutti comportano l'applicazione di filtri di file nel menu Opzioni.

Modificare la codifica dei propri file in Unicode

aprire il file sorgente in un editor di testo che interpreta correttamente la sua codifica e salvare il file nella codifica "UTF-8". Modificare l'estensione del file da .txt a .utf8. OmegaT lo interpreterà automaticamente come file con codifica UTF-8. Questo è il sistema più comune, che permette di evitare problemi nel lungo periodo.

Specificare la codifica per i file di solo testo

- ad es., i file con estensione .txt - : nella sezione File di testo della finestra di dialogo Filtri dei file, modificare Codifica del file sorgente da <auto> a quella corrispondente al file .txt originale, per esempio a .jp, in base all'esempio sopra riportato.

Modificare l'estensione dei file di solo testo di partenza

per esempio, da .txt a .jp per i file di solo testo in Giapponese: nella sezione File di testo della finestra di dialogo dei filtri dei file, aggiungere un nuovo Modello del nome del file sorgente (*.jp per questo esempio) e selezionare i corretti parametri per la codifica dei file di partenza e di arrivo.

Per impostazione predefinita OmegaT mette a disposizione il seguente breve elenco che facilita la gestione di alcuni tipi di file di solo testo:

  • i file .txt sono automaticamente (<auto>) interpretati da OmegaT come se fossero codificati con la codifica predefinita del computer.

  • i file .txt1 sono in ISO-8859-1, che copre la maggior parte delle lingue dell'Europa occidentale.

  • i file .txt2 sono in ISO-8859-2, che copre la maggior parte delle lingue dell'Europa centrale e orientale

  • i file .utf8 sono interpretati da OmegaT come se fossero codificati in UTF-8 (codifica che copre quasi tutte le lingue del mondo).

Lo si potrà verificare di persona selezionando il comando Filtri dei file del menu Opzioni. Ad esempio, se si ha un file di testo scritto in Ceco (molto probabilmente con codifica ISO-8859-2), basta modificare l'estensione .txt in .txt2 affinché OmegaT interpreti correttamente il suo contenuto. Naturalmente, per non correre rischi, si prenda in considerazione di convertire questi tipi di file in Unicode, per esempio nel formato di file .utf8.