Робота з текстовими файлами


Кодування за замовчуванням

Текстові файли в більшості випадків мають розширення .txt та містять лише текстову інформацію. Немає точно визначеного способу, як інформувати компʼютер про те, якою мовою вони написані. Це означає, що компʼютер припускає, що текст написаний тією мовою, яку він сам використовує.


Спотворені символи

Компʼютер росіянина працює, скоріш за все, російською мовою: меню відображаються російською, файли написані російською тощо. У більшості випадків компʼютер правильно визначає вміст файлів загалом: вони всі написані російською і не містять нічого такого, чого не можна було б відобразити російськими символами.

Але, якщо Ви російський перекладач, який перекладає з японської мови, то японські текстові файли компʼютер розглядає як файли, написані російською. Це відбувається так, тому що в самих файлах немає жодної інформації про мову. Вміст японського файлу може бути таким:

OmegaTとは、コンピュータを利用した翻訳ツールです。


Через те, що текст сприймається російською мовою, текстовий редактор може показати його так:

OmegaTВВЌБAГRГУГsГЕБ [Г^ВрЧШЧpВ µ ВљЦ|ЦуГcБ [ГЛВВЈБB


Але це зовсім не російська мова, це японські букви, які неправильно відображаються російськими символами.

Як і в інших програм, в OmegaT з цим проблема. OmegaT може лише припустити, що за замовчуванням текстові файли можуть відображатись відповідно до системних налаштувань. Це не проблема, якщо, наприклад, компʼютер працює французькою, а текст для перекладу англійською, або якщо компʼютер працює німецькою, а Ви працюєте з італійськими файлами.


Шрифти та кодування

Але чому це працює з англійською та французькою, проте не працює з російською та японською? Тому що англійська та французька використовують однаковий набір символів. А саме Latin-1, або його варіації. До недавнього часу російська та японська мови не мали однакового набору символів. Найновіші російські набори символів не покривають японську мову, і навпаки. Результат можна побачити вище.

Японський клієнт працює за японським компʼютер і створює текстові файли японською мовою. Вибраний на компʼютері клієнта набір символів залежить від операційної системи та інших налаштувань, але мало ймовірно, що вибраний (японський) набір символів буде правильно інтерпретований на російському компʼютері.

Від кодування залежить те, як текстова інформація передається у вказаному наборі символів фізично (тобто які цифрові коди використовує компʼютер, щоб інтерпретувати та відображати текст). Коли компʼютер читає файл, він „декодує“ інформацію відповідно до коду і показує її, використовуючи набір символів. Грубо кажучи, кодування відповідає набору символів.


Рішення OmegaT

Загалом, у OmegaT є три способи боротьби з цією проблемою. Усі вони використовують файлові фільтри в меню Параметри.

  1. Укажіть кодування для Ваших текстових файлів, тобто для файлів із розширенням .txt: у розділі Текстові файли діалогового вікна Текстовий фільтр змініть Кодування файлів оригінала з <auto> на кодування, яке відповідає Вашому файлу .txt.
  2. Змініть розширення Ваших текстових файлів оригінала - наприклад, для японських текстових файлів з .txt на .jp: у розділі Текстові файли діалогового вікна Текстовий фільтр додайте новий Шаблон файлів оригінала (наприклад, *.jp) і виберіть для кодування оригінала та перекладу відповідні параметри.
  3. Змініть кодування Ваших файлів на Unicode: відкрийте Ваш файл оригінала в текстовому редакторі, який може працювати з кодуванням, та збережіть файл з кодуванням „UTF-8“. Змініть розширення файлу з .txt на .utf8 і OmegaT буде автоматично інтерпретувати його як файл UTF8.

OmegaT уже містить короткий список налаштувань, щоб Вам було легше працювати з деякими текстовими файлами:

Ви можете це перевірити, натиснувши Файловий фільтр у меню Параметри. Наприклад, якщо у Вас текстовий файл чеською мовою (скоріш за все написаний кодуваннямISO-8859-2), Вам потрібно змінити розширення файлу з .txt на .txt2, і OmegaT буде правильно інтерпретувати його вміст. І, звичайно, якщо ви хочете, щоб Ваші файли бути в безпеці, не забудьте перетворити файли такого типу в Unicode, тобто у формат .utf8.


Юридична інформація Домашня сторінка Карта змісту