Chapter 11. Праца зь нефарматаваным тэкстам

1. Кадоўка па змаўчаньні
2. Рашэньне для OmegaT

1. Кадоўка па змаўчаньні

Файлы нефарматаванага тэксту — якія ў большасьці выпадкаў маюць пашырэньне назвы txt — утрымліваюць толькі тэкставую інфармацыю без дакладных указаньняў для кампутара пра мову тэксту. Усё, што OmegaT можа зрабіць у падобных выпадках, гэта зыходзіць з таго, што тэкст напісаны на той самай мове, зь якой карыстаецца сам кампутар. Гэта не праблема, калі файлы ў кадоўцы Unicode з 16 бітамі на сымбаль. /Але калі сымбалі ў 8-бітавай кадоўцы, можа ўзьнікнуць наступная праблема: замест тэксту на японскай, напрыклад…

… сыстэма пакажа нешта падобнае на наступнае:

Кампутар, на якім выконваецца OmegaT, па змаўчаньні ўжывае расейскую мову, і таму паказваюцца сымбалі кірыліцы, а не японская пісьмовасьць.

2. Рашэньне для OmegaT

Існуе тры асноўных спосабы вырашэньня гэтай праблемы ў OmegaT. Усе яны патрабуюць працы з файлавымі фільтрамі (мэню Налады).

Зьмянеце кадоўку файлаў на Unicode

адчынеце зыходны файл у тэкставым рэдактары, які правільна разумее ягоную кадоўку, і захавайце файл у кадоўцы UTF-8. Зьмянеце пашырэньне назвы з .txt на .utf-8. OmegaT аўтаматычна будзе апрацоўваць файл як файл у кадоўцы UTF-8. Гэта — бадай што найпрасьцешае рашэньне, якое дазволіць пазьбегнуць праблемаў надалей.

Задайце кадоўку для файлаў нефарматаванага тэксту

— г. зн., файлаў з пашырэньнем назвы .txt — : у пункце Тэкст дыялёгу файлавых фільтраў зьмянеце кадоўку зыходных файлаў з <аўта> на кадоўку, якая адпавядае зыходнаму файлу з пашырэньнем назвы .txt, напрыклад, на .jp для прыкладу, згаданага вышэй.

Зьмянеце пашырэньні назваў зыходных файлаў

напрыклад, з .txt на .jp для файлаў нефарматаванага тэксту на японскай мове: у элемэньце Тэкст дыялёгу файлавых фільтраў дадайце новы шаблён назваў зыходных файлаў (*.jp для гэтага прыклада) і выберыце адпаведныя парамэтры кадоўкі зыходных файлаў і файлаў перакладаў.

OmegaT па змаўчаньні прапануе наступны сьпіс, каб спрасьціць наладку парамэтраў для пэўных файлаў нефарматаванага тэксту:

  • .txt: файлы аўтаматычна (<аўта>) апрацоўваюцца OmegaT як файлы ў кадоўцы кампутара па змаўчаньні.

  • .txt1: файлы ў кадоўцы ISO-8859-1, якая прыдатная для большасьці заходнеэўрапейскіх моваў.

  • .txt2: файлы ў кадоўцы ISO-8859-2, якая прыдатная для большасьці моваў Цэнтральнай і Ўсходняй Эўропы.

  • .utf-8: файлы апрацоўваюцца OmegaT як кадаваныя ў UTF-8 (кадоўка, прыдатная амаль для ўсіх моваў сьвету).

Праверце гэта самі, выбраўшы Файлавыя фільтры у мэню Налады. Напрыклад, калі ў вас ёсьць файл на чэскай (з высокай імавернасьцю ў кадоўцы ISO-8859-2), трэба проста зьмяніць пашырэньне назвы .txt на .txt2, і OmegaT апрацуе яго як мае быць. І, зразумела, найнадзейнейшым спосабам зьяўляецца перазахаваньне падобных файлаў ва Unicode, г. зн. з пашырэньнем назвы .utf-8.