Chapter 14. Segmentace zdroje

1. Pravidla segmentace
2. Pravidla přednosti
3. Vytváření nového pravidla
4. Pár jednoduchých příkladů

Nástroje pro práci s překladovými paměťmi pracují s textovými jednotkami nazývanými segmenty. OmegaT nabízí dva způsoby segmentace textu: segmentace podle odstavců nebo segmentace na úrovni vět (také zvaná jako „rule-based segmentation“). Pro výběr typu segmentace, vyberte z hlavní nabídky ProjektVlastnosti... a zaškrtněte, nebo zrušte zaškrtnutí nabízeného zaškrtávacího políčka. Segmentace podle odstavců je výhodná jen v určitých případech, jako jsou velmi kreativní nebo stylové překlady, ve kterých překladatel asi bude chtít změnit pořadí celých vět; nicméně ve většině projektů je upřednostňovanou volbou právě segmentace podle vět, protože tato poskytuje lepší shody s předchozími překlady. Pokud je vybráno Segmentace na úrovni vět, pak můžete nastavit pravidla vybráním položky MožnostiSegmentace... v hlavní nabídce.

Spolehlivá pravidla segmentace jsou dostupná pro spoustu jazyků, takže pravděpodobně nebudete potřebovat si psát vlastní pravidla segmentace. Na druhou stranu tato funkce může být velmi užitečná ve speciálních případech, kdy můžete zvýšit svou produktivitu úpravou segmentačních pravidel u textu, který máte překládat.

Upozornění: protože po změně možností filtrů bude text segmentován odlišně, je možné, že bude nutné začít překlad zase zcela od začátku. Současně se dřívější platné segmenty v překladové paměti změní na nespárované segmenty. Pokud změníte volby segmentace ve chvíli, kdy je otevřený nějaký projekt, budete muset projekt znovu načíst, aby se změny projevily.

OmegaT používá následující sled kroků:

Segmentace na úrovni struktury

OmegaT nejprve zpracuje text pomocí segmentace na úrovni struktur. Během tohoto procesu je to jen struktura zdrojového souboru, která je použitá na vytvoření segmentů.

Například mohou být textové soubory segmentovány podle zlomů řádků, prázdných řádků nebo vůbec nemusí být segmentovány na strukturální úrovni. Soubory s formátováním (dokumenty ODF, HTML, atd.) jsou segmentovány na úrovni tagů bloků (odstavce). Atributy přeložitelných objektů v souborech XHTML nebo HTML lze extrahovat jako samostatné segmenty.

Segmentace na úrovni vět

Po segmentaci zdrojového souboru podle logických jednotek, bude OmegaT dále segmentovat tyto bloky do vět.

1. Pravidla segmentace

Průběh segmentace lze znázornit následovně: kurzor se pohybuje v textu, vždy po jednom znaku. Pravidlo pozice kurzoru se skládá ze vzoru Před a Za, pravidla jsou aplikována v předem daném pořadí, aby se tak ověřilo, jestli některý ze vzorů Před je platný pro text vlevo, a stejným způsobem vzor Za pro text vpravo od kurzoru. Pokud pravidlo lze aplikovat, tak se kurzor buď pohne bez vložení zalomení segmentu (v případě výjimky pravidla) nebo je vytvořeno zalomení segmentu na aktuální pozici kurzoru (v případě aplikování pravidla pro zalomení).

Tyto dva typy pravidel se chovají následovně:

Pravidla zalomení

Rozdělí zdrojový text na segmenty. Například: „Did it make sense? I was not sure.“ by mělo být rozděleno na dva segmenty. Aby se tak stalo, mělo by tu být pravidlo zalomení pro „?“, po kterém následuje mezera a slovo začínající velkým písmenem. Když chcete definovat pravidlo jako pravidlo zalomení, zaškrtněte zaškrtávací políčko Zlom/Výjimka.

Pravidlo výjimky

Specifikuje, které části textu by NEMĚLY být rozděleny. Nehledě na tečku v „Mrs. Dalloway“ by zde neměl být text rozdělen, tzn. mělo by být založeno pravidlo výjimky pro Mrs (stejně tak Mr a Dr a prof atd.), což je normálně následováno tečkou. Když chcete definovat pravidlo jakožto výjimku, nechte zaškrtávací políčko Zlom/Výjimka prázdné.

Předdefinovaná pravidla zalomení by měla být dostatečná pro většinu evropských jazyků a Japonštinu. Vzhledem k flexibilitě, můžete zvážit definování více pravidel pro výjimky pro jazyk ze kterého překládáte, abyste získali smysluplnější a souvislejší segmenty.

2. Pravidla přednosti

Všechny sady pravidel segmentace pro odpovídající vzor jazyka jsou použité v daném pořadí priority, takže pravidla pro konkrétní jazyk by měla být vyšší než ta z výchozího nastavení. Tak například, pravidla pro kanadskou francouzštinu (FR-CA) by měla být ve výchozím nastavení výše než pravidla pro francouzštinu (FR.*), a výše než (.*). Takže v průběhu překladu z kanadské francouzštiny bude váš projekt používat jako první pravidla pro kanadskou francouzštinu (pokud jsou tedy definována), pak se vychází z pravidel pro francouzštinu, a nakonec v pořadí se uplatní pravidla výchozího nastavení

3. Vytváření nového pravidla

Obecně by se u aktivního projektu neměly provádět změny pravidel segmentace, obzvláště po kompletaci prvního konceptu, ale drobné změny, jako je přidání rozpoznané zkratky, mohou být prospěšné.

Pro úpravu nebo rozšíření již existující sady pravidel, jednoduše klikněte na danou sadu v horní tabulce. Pravidla této sady se objeví v dolní půlce okna.

Pro vytvoření prázdné sady pravidel pro nový jazykový vzor klikněte na Přidat v horní polovině dialogového okna. Ve spodní části horní tabulky se objeví prázdný řádek (abyste jej viděli, budete asi muset srolovat dolů). Změňte název sady pravidel a vzor jazyka pro daný jazyk a jeho kód (viz Appendix A, Jazyky – seznam kódů ISO 639 seznam jazykových kódů). Syntaxe vzoru jazyka odpovídá syntaxi regulárních výrazů. Pokud vaše sada pravidel platí pro pár jazyk-země, doporučujeme posunout ji nahoru pomocí tlačítka Přesunout nahoru.

Přidejte vzory Před a Za. Pro kontrolu jejich syntaxe a použitelnosti, je vhodné použít nástroje, které vám umožní vidět jejich účinek přímo. Viz kapitolu Regulární výrazy. Dobrým výchozím bodem vždy bude již existující pravidlo.

4. Pár jednoduchých příkladů

Cíl Vzor před Vzor za Poznámka
Nastavit segment po tečce (‚.‘) a před mezerou, tabulátorem ... \. \s „\.“ zastupuje znak tečky „\.“ znamená znak „.“ „\s“ znamená jakýkoliv netisknutelný znak (mezera, tabulátor, nová stránka, atd.).
Nesegmentovat po Mr. Mr\. \s Toto je pravidlo výjimky, takže zaškrtávací políčko pravidla musí zůstat neoznačeno
segmentovat po „。“ (japonská tečka)   Všimněte si, že políčko Vzor za je prázdné
Nesegmentovat po M. Mr. Mrs. a Ms. Mr??s??\. \s Pravidlo výjimky – viz použití znaku ‚?‘ v regulárních výrazech