Сегментація оригінала- OmegaT 1.8 Посібник користувача

Сегментація оригінала

Структурна сегментація
Сегментація на рівні речень
- Правила сегментації
- Налаштування правил
Конструкції з регулярними виразами

Інструменти памʼяті перекладу працюють з текстовими одиницями, які називаються „сегменти“. OmegaT має 2 способи сегментації тексту: сегментація по абзацах і по реченнях. Щоб установити тип сегментації, виберіть Проект → Властивості... і використайте відповідний перемикач. Зверніть увагу, що сегментація по абзацах вважається досить застарілою, тому для більшості проектів рекомендується вибирати сегментацію по реченнях. Якщо Ви вибрали сегментацію по реченнях, то можете налаштувати правила, відкривши в головному меню Параметри → Сегментація....

Зверніть увагу, що значний внесок було зроблено в розвиток надійних правил сегментації, тому в більшості випадків Вам не потрібно створювати ці правила. З іншого боку, ця функція може бути дуже корисною в особливих випадках, тому що вона дозволяє Вам перекладати те, що потрібно, та уникнути ризику зміни того, що повинно залишитися незмінним.

Увага! Зміна параметрів фільтру у відкритому проекті може призвести до втрати даних. Якщо Ви змінюєте параметри сегментації у відкритому проекті, Вам потрібно буде перезавантажити проект, щоб зміни почали діяти.

Структурна сегментація

OmegaT спочатку аналізує текст на структурному рівні. Під час цього процесу для створення сегментів використовується лише структура файлів оригінала.

Наприклад, текстові файли можуть бути сегментовані по розривах рядків, пустих рядках або взагалі не сегментуватися. Файли з форматуванням (OpenOffice.org Dokumente, HTML-Dokumente, тощо) сегментуються на рівні блоків (абзаців). Властивості обʼєктів, які повинні перекладатися, можуть бути у файлах XHTML або HTML виділені як окремі сегменти.

Сегментація на рівні речень

Після сегментації файлу оригінала на логічні одиниці, OmegaT сегментує їх далі на речення.

Правила сегментації

Процес сегментації можна описати наступним чином: уявіть, що курсор рухається вздовж тексту, проходячи один символ за раз. Для кожної позиції курсора перевіряються всі правила у вказаному порядку, щоб подивитись, чи підходить шаблон До до тексту зліва та шаблон Після — до тексту справа. Якщо правило виконується, програма припиняє перевірку правил (для правил-винятків) або створює новий сегмент (для правила розриву).

Сегментація по реченнях реалізується за допомогою стандарту Segmentation Rules eXchange (SRX) — зверніть увагу, що не всі функції SRX підтримуються. Крім того, не можна імпортувати або експортувати правила у форматі SRX. Але, якщо Ви знаєте, як працює SRX, то Ви вже знаєте багато про те, як OmegaT здійснює сегментацію.

Є два види правил:

Правила розриву ділять текст оригінала на сегменти. Наприклад: „Це мало якесь значення? Я не впевнений.“ повинно бути поділено на два сегменти, тобто повинно бути визначене правило розриву для „?“.
Правила винятку визначають, які частини тексту НЕ повинні бути розділені. Не зважаючи на крапку, "Mrs. Dalloway " не потрібно розділяти, тому для рядка Mrs (а також Mr., Dr. тощо) з крапкою справа потрібно визначити правило винятку.

Стандартних правил розриву повинно бути достатньо для більшості європейських мов і японської мови. Враховуючи гнучкість, Ви можете визначити додаткові правила винятку для мов, з яких перекладаєте, щоб мати більше значимих та узгоджених сегментів.

Налаштування правил

Пріоритет

Усі правила сегментації з відповідним шаблоном мови застосовуються в заданому порядку пріоритету, отже правила для конкретної мови повинні бути вищими за стандартні. Наприклад, правило для канадської французької мови (FR-CA) повинне бути вище, ніж правило для французької (FR. *) і ніж правило за замовчуванням (. *). Під час перекладу з канадської французької, ваш проект спочатку використовуватиме правила, визначені для цієї мови, потім правила для французької мови та правила за замовчуванням.

Створення правил

Щоб відредагувати або розширити існуючий набір правил, просто натисніть на нього у верхній частині діалогового вікна. Набір правил відображається у нижній частині вікна.

Щоб створити пустий набір правил для нової мови, натисніть Додати у верхній частині діалогового вікна. Внизу вищої таблиці зʼявиться порожній рядок (може бути, що Вам доведеться прокрутити вниз, щоб його побачити). Змініть назву набору правил і шаблона мови. Синтаксис шаблона мови підпорядковується синтаксису регулярних виразів. Якщо набір правил стосується пари „мова-країна“, рекомендується перемістити його вгору за допомогою кнопки Вгору.

Розрив/Виняток

Прапорець „Розрив/Виняток“ визначає, чи це правило розриву (прапорець поставлено) чи правило винятку(прапорця немає). Два регулярних вирази „До“ та „Після“ вказують, що повинно знаходитися до та після курсора, щоб спрацювало правило розриву або правило винятку.

Декілька простих прикладів

Намір	До	Після	Примітка
почати сегмент після крапки ('`.` ') і перед пробілом	`\.`	`\s`	„`\.`“ означає символ „`.`“, „`\s`“ означає будь-який символ пробілу
не сегментувати після Mr.	`Mr\.`	`\s`	Це правило винятку, тому прапорець не повинен стояти на вимикачі.
починати сегмент після символа „。“ (японська крапка)	`。`		Зверніть увагу: поле Після порожнє
не сегментувати після M. Mr. Mrs. і Ms.	`Mr??s??\.`	`\s`	Правило винятку - див. використання ? у регулярних виразах („нежадібний“ ідентифікатор)

Конструкції з регулярними виразами

Регулярні вирази, які використовуються у сегментації, підтримуються Java. Коротку довідку можна знайти в додатку Створення регулярних виразів. Якщо Вам потрібна детальніша інформація, перейдіть за адресою http://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html.

У мережі доступні прості інструкції щодо регулярних виразів (наприклад, http://www.regular-expressions.info/quickstart.html).

Юридична інформація

Домашня сторінка

Карта змісту