Com treballar amb text net

Codificació per defecte
Text il·legible
Jocs i codificació de caràcters
Solució de l'OmegaT

Codificació per defecte

Els fitxers de text net, que generalment tenen l'extensió .txt, contenen exclusivament informació textual. No hi ha cap manera clarament definida d'informar l'ordinador de la llengua que contenen. A grans trets, això significa que, per defecte, l'ordinador considerarà que el fitxer és en la mateixa llengua que la utilitzada pel propi ordinador.

Text il·legible

Si l'usuari és rus, és molt probable que el seu ordinador també treballi en rus: els menús es mostren en rus, els fitxers que obre són en rus, etc. En la majoria dels casos, l'ordinador normalment realitza la decisió correcta sobre el contingut dels fitxers: tots són en rus i no en cap altra llengua que no es pugui representar amb caràcters russos.

Ara bé, si l'usuari és un traductor rus que tradueix del japonès i ha de treballar amb fitxers de text net en japonès, molt probablement l'ordinador considerarà que el contingut d'aquests fitxers és en rus. Això passa perquè el fitxer en sí no conté informació que indiqui a l'ordinador en quina llengua s'han escrit. Per exemple, el fitxer en japonès podria contenir el text:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Com que espera que el contingut sigui en rus, però, l'editor de textos podria mostrar-lo així:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpВµВљЦ|ЦуГcБ[ГЛВ≈ВЈБB

Però això no és rus: són caràcters japonesos que es mostren incorrectament com a caràcters russos.

Com qualsevol altra aplicació, l'OmegaT també és susceptible de tenir aquest problema. Només pot pressuposar que, per defecte, els fitxers de text net es poden visualitzar utilitzant els valors per defecte del sistema. Això funciona bé, per exemple, quan l'ordinador treballa en francès i l'usuari tradueix fitxers en anglès, o quan l'ordinador treballa en alemany i l'usuari tradueix fitxers en italià.

Jocs i codificació de caràcters

Com és que funciona amb l'anglès i el francès però no amb el rus i el japonès? Perquè l'anglès i el francès comparteixen un mateix joc de caràcters. Concretament, Llatí-1, o alguna variant d'aquest. Fins fa poc, el rus i el japonès no compartien cap joc de caràcters. Els jocs de caràcters russos més actuals no cobreixen els caràcters japonesos, i a la inversa. El resultat és el que heu vist abans.

El client japonès treballa amb un ordinador japonès i crea fitxers de text que contenen japonès. El joc de caràcters seleccionat per l'ordinador del client dependrà del sistema operatiu i d'altres paràmetres, però és molt poc probable que l'ordinador rus interpreti correctament el joc de caràcters escollit (japonès).

Ara bé, la manera en què la informació textual del joc de caràcters especificat es transmet físicament (és a dir, quins són els codis numèrics que l'ordinador utilitza per interpretar i per mostrar el text) depèn de la codificació. Quan l'ordinador llegeix el fitxer, «descodifica» la informació en funció de la codificació i el visualitza en funció del joc de caràcters. A grans trets, una codificació correspon a un joc de caràcters...

Solució de l'OmegaT

Bàsicament, hi ha tres maneres de solucionar aquest problema a l'OmegaT. Totes tres impliquen l'aplicació de filtres de fitxers del menú Opcions.

Especifiqueu la codificació dels fitxers de text net, és a dir, els fitxers amb l'extensió .txt: A l'apartat Fitxers de text del diàleg Filtres de fitxers, canvieu la Codificació del text de partida <automàtic> per la codificació que correspongui al vostre fitxer .txt de partida.
Canvieu les extensions dels fitxers de partida de text net (per exemple, .txt per .jp per a fitxers de text net en japonès): A l'apartat Fitxers de text del diàleg Filtres de fitxers, afegiu un Patró de nom de fitxer de partida nou (per exemple, *.jp) i seleccioneu els paràmetres adients per a la codificació del fitxer de partida i del fitxer traduït.
Obriu el fitxer de partida en un editor de textos que n'interpreti correctament la codificació i deseu-lo amb la codificació «UTF-8». Canvieu l'extensió del fitxer .txt per .utf8. L'OmegaT interpretarà automàticament el fitxer com a un fitxer UTF-8.

Per defecte, l'OmegaT inclou aquesta breu llista per facilitar-vos el treball amb alguns fitxers de text net:

L'OmegaT interpreta els fitxers .txt automàticament (<automàtic>) com a fitxers amb la codificació per defecte del sistema.
Els fitxers .txt1 tenen la codificació ISO-8859-1, que cobreix la majoria de les llengües d'Europa occidental.
Els fitxers .txt2 tenen la codificació ISO-8859-2, que cobreix la majoria de les llengües d'Europa central i oriental.
L'OmegaT interpreta els fitxers .utf8 com a fitxers amb codificació UTF-8 (que cobreix gairebé totes les llengües del món).

Podeu comprovar-ho seleccionant Filtres de fitxers al menú Opcions. Per exemple, si teniu un fitxer de partida en txec (molt probablement amb codificació ISO-8859-2), només us cal canviar l'extensió .txt per .txt2 i l'OmegaT n'interpretarà el contingut correctament. Si voleu evitar-vos problemes, però, considereu l'opció de convertir aquests tipus de fitxers a Unicode, és a dir, al format de fitxer .utf8.

Avisos legals

Inici

Índex