Chapter 9. Soubory, které lze překládat za pomoci OmegaT

1. Formáty souborů
1.1. Prosté textové soubory
1.2. Soubory s formátovaným textem
1.3. Soubory PDF
2. Jiné formáty souborů
3. Jazyky se zápisem zprava doleva
3.1. Současné užívání řetězců LTR a RTL v segmentech
3.2. Tagy aplikace OmegaT v segmentech typu RTL
3.3. Vytvoření dokumentů se zápisem RTL

1. Formáty souborů

S programem OmegaT můžete překládat soubory mnoha formátů. V podstatě existují dva základní typy formátů, formát prostého textu a formátovaného textu.

1.1. Prosté textové soubory

Prosté textové soubory obsahují pouze text, takže jejich překlad je jednoduchý; prostě přímo píšete text překladu. Existuje několik metod jak blíže určit kódování souboru, takže při otevření souboru v programu OmegaT nebude obsah souboru zobrazen chybně. Takové soubory neobsahují žádné informace k formátování „neviditelných znaků“, kterých se využívá k zarovnání textu, identifikaci odstavců nebo vkládání konce stránek. Takové znaky nemohou obsahovat, čili neumí vyjádřit informace k textu týkající se barvy, písma a podobných vlastností textu. V současnosti podporuje OmegaT následující formáty prostého textu:

  • Text ASCII (.txt, atd.)

  • Kódovaný text (*.UTF8)

  • Zdrojové balíčky Java (*.properties)

  • Soubory PO (.po)

  • Soubory INI (klíč=hodnota) (*.ini)

  • Soubory DTD (*.DTD)

  • Soubory DokuWiky (*.txt)

  • Soubory titulků SubRip (*.srt)

  • Soubory Magento CE Locale CSV (*.csv)

Jiné typy souborů obsahujících prostý text můžou být zpracovány programem OmegaT pomocí asociování své koncovky k podporovanému typu souboru (například soubory .pod mohou být asociovány k filtru ASCII) a jejich předzpracováním se specifickými segmentačními pravidly.

Soubory PO mohou obsahovat jak text zdroje, tak i jeho překlad. Takže když se na to podíváme z této stránky, jedná se o prosté textové soubory plus překladové paměti. Pokud pro určitý zdrojový segment není k dispozici žádný překlad v překladové paměti projektu (project_save.tmx), bude jako výchozí překlad uložen v souboru project_save.tmx aktuální překlad. Nicméně v případě, že stejný zdrojový segment již existujes jiným překladem, bude nový překlad uložen jakožto alternativa.

1.2. Soubory s formátovaným textem

Soubory s formátovaným textem obsahují informace jako je typ písma, velikost, barva atd. stejně jako text samotný. Běžně jsou vytvářeny pomocí textových procesorů nebo editorů HTML. Takovéto formáty souborů jsou navrženy k tomu, aby přenesly informaci o formátovaní textu. Informace o formátování mohou být buď jednoduché, jako „toto je tučné písmo„“, nebo složité, jako např. tabulkové údaje s různými velikostmi písma, barvami, umístěním atd. Ve většině překladatelských zakázek bývá důležité, aby v přeloženém dokumentu bylo zachováno formátování originálu. OmegaT vám to umožní označením znaků či slov, které mají speciální formátování pomocí jednoduchých a přehledných tagů. Zjednodušení formátování původního textu ve velké míře přispívá ke snížení počtu tagů. Kde je to možné, tam se využívá sjednocení tagů pro písmo, velikost písma, barvy, atd., což jsou vlastnosti použité v dokumentu, a zjednoduší se tak práce na překladu a sníží se možný počet chyb tagů. OmegaT zachází s každým typem souboru jinak. Specifický přístup lze nastavit ve filtrech souborů. V době psaní tohoto textu podporuje OmegaT následující formáty pro formátovaný text:

  • ODF - Formát OASIS Open Document Format (*.ods, *.ots, *.odt, *.ott, *.odp, *.otp)

  • Microsoft Office Open XML (*.docx, *.dotx, *.xlsx, *.xltx, *.pptx)

  • (X)HTML (*.html, *.xhtml,*.xht)

  • HTML Help Compiler (*.hhc, *.hhk)

  • DocBook (*.xml)

  • XLIFF (*.xlf, *.xliff, *.sdlxliff) – typy source=target (zdroj=cíl)

  • QuarkXPress CopyFlowGold (*.tag, *.xtg)

  • Soubory ResX (*.resx)

  • Zdrojové soubory pro Android (.*xml)

  • LaTex (*.tex, *.latex)

  • Soubory Nápovědy (*.xml) a Příručky (*.hmxp)

  • Typo3 LocManager (*.xml)

  • WiX Localization (*.wxl)

  • Iceni Infix (*.xml)

  • Flash XML export (*.xml)

  • Wordfast TXML (*.txml)

  • Camtasia pro soubory Windows (*.camproj)

  • Visio (*.vxd)

  • Java property XML (*.xml)

  • Schematron (*.sch)

  • RELAX NG schema pro XML (*.rng)

Jiné typy souborů obsahujících prostý text mohou být zpracovány programem OmegaT pomocí asociování své koncovky k podporovanému typu souboru, za předpokladu, že budou správně segmentovány podle odpovídajících segmentačních pravidel.

1.3. Soubory PDF

Soubory PDF představují zvláštní případ Obsahují informaci k formátování textu, ale taková informace nemůže být znovu použita aplikací OmegaT při tvoření cílových souborů. Tudíž jsou soubory PDF zpracovávány jako soubory prostého textu a výstup představují soubory s neformátovaným prostým textem.

Pokud potřebujte reprodukovat formátování textu (a nebo také jiné objekty jako kresby) ve svém překladu, tak se nabízejí tři způsoby:

  1. Použijte výchozí filtr v OmegaT (vstup PDF), přeložte, vytvořte cílový soubor (bude to soubor s prostým textem) a přidejte důležité formátování a položky ručně.

  2. Použití filtru Iceni Infix Viz Jak na to - překlad souborů PDF za použití Iceni Infix a OmegaT.

  3. Importujte zdrojové soubory do LibreOffice Draw, uložte je jako soubor s koncovkou ODG, přeložte, vyexportujte do PDF dle potřeby.

Pozor: výše zmíněné informace se vztahují pouze na soubory PDF obsahující textovou vrstvu. Pokud máte soubor PDF vytvořený z naskenovaných stránek (někdy se těmto stránkám řáká 'mrtvá' PDF), pak poutřebujete použít program OCR (optical character recognition - optické rozpoznání znaků) pro rozeznání textu a převod souboru do formátu, který umí OmegaT zpracovat.

2. Jiné formáty souborů

Pro aplikaci OmegaT jsou vhodné i jiné souborové formáty prostého nebo formátovaného textu.

Převod souborů na podporované formáty lze provádět prostřednictvím externích nástrojů. Přeložené soubory bude nutno převést zpět do originálního formátu. Například, pokud máte zastaralou verzi Microsoft Word, která neumí pracovat s formátem ODT, ukažme si příklad práce s Wordovskými soubory s koncovkou DOC:

  • importujte soubor do Textového editoru pro zpracování formátu ODF (např. LibreOffice Writer, OpenOffice.org Writer)

  • uložte soubor ve formátu ODT

  • přeložte soubor ODT

  • otevřete přeložený cílový soubor do Textového editoru pro zpracování formátu ODF (např. LibreOffice Writer, OpenOffice.org Writer)

  • soubor uložte jako DOC

Kvalita formátování přeložených souborů bude záležet na kvalitě takovéto konverze. Před tím, než budete takové konverze provádět, tak si pro jistotu otestujte všechny možnosti. Více informací a aktuální seznam pomocných překladatelských nástrojů najdete na webu OmegaT.

3. Jazyky se zápisem zprava doleva

Zarovnání zdrojových a cílových segmentů závisí na jazycích projektu. Ve výchozím nastavení se vychází ze zarovnání vlevo pro jazyky se zápisem zleva doprava (LTR) a zarovnání vpravo pro jazyky se zápisem zprava doleva (RTL). Mezi různými způsoby zobrazení můžete přepínat stisknutím Shift+Ctrl+O (jedná se o písmeno O, ne o číslici 0). Při přepínání Shift+Ctrl+O se volí mezi třemi nastaveními:

  • výchozí zarovnání, které je definováno s jazykem

  • zarovnání vlevo

  • zarovnání vpravo

Použití módu RTL v aplikaci OmegaT nikterak neovlivní zobrazovací mód přeložených dokumentů, které byly sestaveny prostřednictvím OmegaT. Zobrazovací mód přeloženého dokumentu bude nutno upravit s aplikací, která je běžně určena k zobrazování a úpravě takového textu (více informací v konkrétních manuálech). Použití zkratky Shift+Ctrl+O vyvolá v aplikaci OmegaT změnu jak pro vkládání, tak i pro zobrazení textu. Lze ji použít odděleně pro všechny tři okna (Editor, Přibližné překlady a Glosář). Tuto možnost lze použít i ve všech polích pro zadávání textu v rámci OmegaT – v okně pro vyhledávání, segmentační pravidla atd.

Pozor: Mac OS X používá stejnou zkratku Shift+Ctrl+O (a ne cmd+Ctrl+O) .

3.1. Současné užívání řetězců LTR a RTL v segmentech

Když zadáváte prostý text ve směru RTL, můžete používat výchozí (LTR) zobrazení. Nicméně v mnoha případech je nutné vložit text LTR do textu RTL. U tagů aplikace OmegaT si uveďme příklady jako názvy produktů, které musí zůstat ve směru LTR zdrojového jazyka, různé zástupné znaky v textu v lokalizačních souborech a čísla. V takovýchto případech je důležité přepnout do módu RTL, takže text RTL (ve skutečnosti dvousměrný) bude zobrazován správně. Je nutno uvést, že když je OmegaT v módu RTL, tak oba, jak zdrojový, tak i cílový text, texty jsou zobrazeny v módu RTL. To znamená, že jestli je zdrojový jazyk LTR a cílový RTL, nebo naopak, může být nezbytné vzájemně přepínat mezi módy RTL a LTR a jednoduchým způsobem zobrazovat zdroj a vkládat cílový text v odpovídajícím módu.

3.2. Tagy aplikace OmegaT v segmentech typu RTL

Jak již byl dříve zmíněno, tagy OmegaT jsou řetězce typu LTR. Když překládáte mezi jazyky RTL a LTR, tak abyste mohli tagy správně číst ze zdroje a řádně je vkládat do cílového textu, budete určitě chtít často přepínat mezi módy LTR a RTL.

Pokud to dokument umožní, lze překladateli doporučit odstranit informace o stylu z originálního dokumentu tak, aby se pak v prostředí OmegaT zobrazovalo tagů co nejméně. Bližší informace poskytují údaje v části Tipy pro správu tagů. Často ověřujte tagy (viz Ověření tagů) a vytvářejte přeložené dokumenty (viz níže a položky Hlavní nabídky) v pravidelných časových odstupech především kvůli tomu, že je pak jednodušší vyřešit případné problémy. TIP: co se týče zpracování formátování, někdy může být jednodušší si text k překladu uložit bez jakéhokoliv formátování, přeložit a formátování doplnit posléze v konkrétním editoru.

3.3. Vytvoření dokumentů se zápisem RTL

Když se vytváří přeložené dokumenty, směr zobrazení bude stejný jako u výchozího dokumentu. Pokud byl výchozí dokument typu LTR, směr zobrazování cílového dokumentu se musí změnit ručně na RLT v konkrétní aplikaci, která umí takovéto dokumenty otevírat a zpracovávat. Každý výstupní formát má specifické způsoby jak pracovat se zobrazením RTL; více detailů najdete v nápovědě pro konkrétní aplikace.

U souborů .docx byla spousta změn již provedena automaticky:

  • Odstavce, oddíly a tabulky jsou nastaveny na oba směry.
  • Ucelené textové prvky jsou nastaveny na RTL

Abyste se vyhnuli měnění zobrazovacích parametrů cílového souboru při každém otevření souboru, je u vybraných typů možné změnit zobrazovací parametry u zdrojového souboru a to tak, že tyto parametry budou přeneseny na cílový soubor. Takové úpravy je možné provádět například u souborů OpenOffice.org.