Chapter 14. Сэгмэнтаваньне зыходных тэкстаў

1. Правілы сэгмэнтаваньня
2. Прыярытэт правілаў
3. Стварэньне новага правіла
4. Некалькі простых прыкладаў

Праграмы аўтаматызацыі перакладу працуюць з тэкставымі адзінкамі, г. зв. сэгмэнтамі. OmegaT можа сэгмэнтаваць тэкст двума спосабамі: па абзацах і па сказах (гэта таксама называецца “сэгмэнтаваньне на аснове правілаў”). Каб пераключыць тып сэгмэнтаваньня, выберыце ПраектУласьцівасьці… з галоўнага мэню і пазначце адпаведны пункт або здымеце пазнаку. Сэгмэнтаваньню па сказах карыснае ў пэўных выпадках, напрыклад калі тэкст патрабуе асаблівага крэатыўнага або стылістычнага падыходу, і перакладчыку можа спатрэбіцца перастаўляць цэлыя сказы: аднак для большасьці праектаў найлепшым выбарам зьяўляецца сэгмэнтаваньне па сказах, бо яно дае найлепшы падбор адпаведнікаў з папярэдніх перакладаў. У выпадку абраньня сэгмэнтаваньня па сказах можна наладзіць правілы праз мэню НаладыСэгмэнтаваньне….

Пэўныя правілы сэгмэнтаваньня ўжо вызначаныя для многіх моваў, і найхутчэй вам не спатрэбіцца пісаць уласныя правілы сэгмэнтаваньня. Зь іншага боку гэтая функцыя можа стаць вельмі карыснай для шэрагу асаблівых выпадкаў, калі наладка правілаў сэгмэнтаваньня ў адпаведнасьці зь перакладаным тэкстам можа істотна падвысіць прадукцыйнасьць працы.

Увага: з-за таго, што сэгмэнтаваньне тэксту зьмяняецца пасьля зьмены наладаў фільтра, можа спатрэбіцца зноў перакласьці значную частку тэксту. Аднак раней перакладзеныя сэгмэнты ў працоўнай памяці перакладаў праекта застануцца ў якасьці састарэлых сэгмэнтаў. Зьмяніўшы налады сэгмэнтаваньня пры адчыненым праекце, абавязкова перазагрузеце праект, каб зьмены сталі дзейснымі.

OmegaT выконвае наступную пасьлядоўнасьць:

Сэгмэнтаваньне на структурным узроўні

OmegaT спачатку робіць сынтаксычны аналіз тэксту ў мэтах сэгмэнтаваньня на структурным узроўні. У гэтым працэсе толькі структура зыходнага файла ўжываецца, каб атрымаць сэгмэнты.

Напрыклад, тэкставыя файлы могуць быць прасэгмэнтаванымі па разрывах радкоў, пустых радкох, або не прасэгмэнтаванымі ўвогуле. Файлы, у якіх утрымліваюцца зьвесткі пра фарматаваньне (дакумэнты ODF, дакумэнты HTML і да г. п.), сэгмэнтуюцца па тэгах узроўню блёкаў (абзацаў). Атрыбуты аб’ектаў, падлягаючыя перакладу, у файлах XHTML або HTML могуць быць выцягнутымі ў асобныя сэгмэнты.

Сэгмэнтаваньне на ўзроўні сказаў

Прасэгмэнтаваўшы зыходны файл у структурныя адзінкі, OmegaT далей прасэгмэнтуе гэтыя блёкі ў сказы.

1. Правілы сэгмэнтаваньня

Працэс сэгмэнтаваньня можна апісаць наступным чынам: курсор бяжыць па тэксьце, сымбаль за сымбалем. У кожнай пазыцыі курсора ўжываюцца правілы, якія складаюцца з шаблёнаў “Да” і “Пасьля”, у вызначаным парадку, каб пабачыць, ці адпавядае тэкст зьлева ад курсора якому-небудзь шаблёну “Да”, а тэкст справа ад курсора — адпаведнаму шаблёну “Пасьля”. Калі правіла супадае, або курсор рухаецца далей без устаўкі разрыва сэгмэнта (у выпадку правіла выключэньня), або ўстаўляецца новы разрыў сэгмэнта ў бягучай пазыцыі курсора (для правіла разрыва).

Два тыпы правілаў працуюць наступным чынам:

Правіла разрыва

Разьдзяляе зыходны тэкст на сэгмэнты. Напрыклад, урывак “Ці мела гэта сэнс? Я ня ўпэўнены”. трэба разьбіць на два сэгмэнты. Каб гэта адбылося, патрэбнае правіла разрыва для “?”, пасьля якога ідуць прабелы і слова зь вялікай літары. Каб вызначыць правіла як правіла разрыва, трэба паставіць пазнаку “Разрыў/выключэньне”.

Правіла выключэньня

Вызначае, якія часткі тэксту НЯ трэба разьдзяляць. Ня гледзячы на наяўнасьць кропкі, “г. Менск” ня трэба разьбіваць на два сэгмэнты, і таму трэба вызначыць правіла выключэньня для “г” (і для “вул”, “пр” і да г. п.) з кропкай пасьля яго. Каб вызначыць правіла як правіла выключэньня, ня трэба ставіць пазнаку “Разрыў/выключэньне”.

Вызначаныя правілы разрыва павінны быць дастатковымі для большасьці эўрапейскіх моваў і японскай. Дзякуючы гнуткасьці, можна вызначыць болей правілаў выключэньняў для пэўнай мовы, каб сэгмэнты былі больш адпаведнымі мове і пасьлядоўнымі.

2. Прыярытэт правілаў

Усе наборы правілаў сэгмэнтаваньня для адпаведнай мовы зьяўляюцца актыўнымі і ўжываюцца ў вызначаным парадку прыярытэту, г. зн., правілы для пэўнай мовы маюць прыярытэт над правіламі па змаўчаньні. Напрыклад, правілы для канадзкай францускай (FR-CA) будуць вышэйшымі за правілы для францускай (FR.*) і вышэйшымі за правілы па змаўчаньні (.*). І падчас перакладу з канадзкай францускай правілы для яе — пры іх наяўнасьці — будуць ужывацца спачатку, затым — правілы для францускай, а пасьля — правілы па змаўчаньні.

3. Стварэньне новага правіла

Звычайна варта пазьбягаць значных зьменаў у правілах сэгмэнтаваньня, асабліва калі ўжо зроблены чарнавік перакладу, але невялікія зьмены, напрыклад, даданьне пазнанага скароту, можа мець сэнс.

Каб адрэдагаваць або пашырыць існы набор правілаў, проста клікнеце па ім уверсе табліцы. Правілы для гэтага набору зьявяцца ў ніжняй частцы табліцы.

Каб стварыць пусты набор правілаў для шаблёна новай мовы, клікнеце “Дадаць” у верхняй частцы дыялёгавага вакна. Унізе верхняй табліцы зьявіцца пусты радок (можа спатрэбіцца прагартаць уніз, каб яго пабачыць). Зьмянеце назву набору правілаў і шаблён мовы для адпаведнай мовы і ейны код (гл. Appendix A, Мовы — сьпіс кодаў паводле ІСО 639 сьпіс моўных кодаў). Сынтаксыс шаблёна мовы адпавядае сынтаксысу рэгулярных выразаў. Калі вы задаяце набор правілаў для камбінацыі мова-краіна, раім пасунуць яго ўгару кнопкай “Уверх”.

Дадайце шаблёны “Шаблён да” і “Шаблён пасьля”. Каб спраўдзіць іхні сынтаксыс і прыдатнасьць, пажадана ўжываць інструмэнты, якія непасрэдна дазваляюць пабачыць іхні эфэкт. Гл. болей у разьдзеле “Рэгулярныя выразы”. Заўсёды добра пачынаць з разгляду існых правілаў.

4. Некалькі простых прыкладаў

Што трэба Шаблён да Шаблён пасьля Зацемка
Каб сэгмэнт пачынаўся пасьля кропкі (“.”), за якой стаіць прабел, сымбаль табуляцыі… \. \s “\.” азначае кропку. “\s” азначае які заўгодна прабельны сымбаль (прабел, табуляцыя, новая старонка і да г. п.).
Каб не было новага сэгмэнта пасьля скарота “Mr.” Mr\. \s Гэта — правіла выключэньня, і таму ня трэба рабіць пазнаку “Разрыў/выключэньне”.
Каб сэгмэнт пачынаўся пасьля “。” (японская кропка)   Заўважце, што “Шаблён пасьля” пусты
Каб не было новага сэгмэнта пасьля скаротаў “M.”, “Mr.”, “Mrs.” і “Ms.” Mr??s??\. \s Правіла выключэньня — гл. ужываньне “?” у рэгулярных выразах