Chapter 7. Filtry souborů

1. Dialogové okno Filtry souborů
2. Možnosti filtrů
3. Dialogové okno Editovat Filtr
3.1. Typ zdrojového souboru, vzor názvu souboru
3.2. Kódování zdrojových a cílových souborů
3.3. Název cílového souboru

OmegaT obsahuje vysoce přizpůsobitelné filtry, které vám umožňují nastavit celou řadu aspektů. Filtry souborů jsou části kódu a jsou schopné:

V nabídce Možnosti > Filtry souborů... naleznete informace o tom, které formáty umí OmegaT zpracovat.

Většině uživatelů bude postačovat výchozí nastavení filtrů souborů. Pokud se tak nestane, otevřete v hlavní nabídce okno nastavení filtrů přes Možnosti → Filtry souborů.... Také můžete nastavit filtry souborů specifické pro daný projekt, které se použijí na aktuální projekt, a to vybráním možnosti Filtry souborů... ve Vlastnostech projektu.

Můžete povolit použití filtrů specifických pro daný projekt přes Možnosti → Vlastnosti.... Klikněte na tlačítko Filtry souborů a označte zaškrtávací políčko Upravit nastavení filtru souborů podle konkrétního projektu Kopie nastavení filtrů se v takovémto případě uloží s projektem. Když později změníte filtry, pak budou aktualizovány jen filtry specifické pro tento projekt, zatímco uživatelské filtry zůstanou nezměněny.

Upozornění Když změníte nastavení filtrů v době, kdy máte otevřený projekt, pak musíte daný projekt znovu nahrát, aby se žádané změny projevily.

1. Dialogové okno Filtry souborů

Toto dialogové okno vypisuje dostupné filtry souborů, a filtry, použité v aktuálním projektu jsou zobrazeny tučným písmem.. Pokud nechcete používat aplikaci OmegaT na překlad souborů nějakého určitého typu, můžete daný filtr vypnout odznačením zaškrtávacího políčka vedle jeho názvu. OmegaT pak při načítání projektů vynechá všechny příslušné soubory, a při vytváření cílových dokumentů je zkopíruje v nezměněné podobě. Když se rozhodnete používat filtr znovu, stačí příslušné políčko opět zaškrtnout. Kliknutím na Výchozí nastavení obnovíte výchozí nastavení filtrů. Když chcete upravit nastavení, které soubory budou v jakém kódování, vyberte filtr ze seznamu a klikněte na Editovat.

Dialogové okno umožňuje zpřístupnit nebo zakázat následující možnosti:

  • Odstranit úvodní a koncové tagy: zrušením označení této možnosti zobrazíte všechny tagy včetně úvodních a koncových. Upozornění: ve formátech Microsoft Open XML (docx, xlsx, atd.), pokud jsou tagy zobrazeny, NIKDY nezapisujte žádný text před první tag (je to technický tag, kterým segment vždy začíná).

  • Odstranit úvodní a koncové netisknutelné znaky v nesegmentovaných projektech: ve výchozím nastavení OmegaT odstraňuje úvodní a koncové netisknutelné znaky. U nesegmentovaných projektů můžete tyto znaky ponechat tím, že zrušíte označení této možnosti.

  • Zachovat mezery pro všechny tagy: označte tuto možnost pokud zdrojové dokumenty obsahují důležité mezery (pro potřeby rozvržení textu), které nesmí být ignorovány.

  • Ignorovat obsah souboru pokud se naleznou segmenty s alternativními překlady: ve výchozím nastavení OmegaT používá název zdrojového souboru jako část identifikace alternativního překladu. Pokud je tato možnost označena, název zdrojového souboru nebude použit a alternativní překlady se projeví v libovolném souboru, pokud se jiný kontext (předchozí/následný segment nebo nějaký typ ID v závislosti na souborovém formátu) shoduje s přibližným překladem.

2. Možnosti filtrů

Několik filtrů (textové soubory, soubory XHTML, soubory HTML a XHTML, OpenDocument/OpenOffice.org a Microsoft Open XML) nabízí jednu nebo více specifických možností. Pro změnu možností vyberte filtr ze seznamu a klikněte na Možnosti. Dostupné možnosti jsou:

Textové soubory

  • Segmentace podle odstavců na zalomení řádků, prázdných řádcích nebo vůbec:

    pokud jsou aktivní pravidla segmentace podle vět, text bude i nadále segmentován podle možnosti, která je zde označena.

Soubory PO

  • Povolit prázdné překlady v cílových souborech:

    Jestli je tato možnost povolena, tak když není segment PO (což může být i celý odstavec) přeložen, překlad zůstane v cílovém souboru prázdný. Technicky řečeno, segment msgstr v PO cílovém souboru, pokud bude tento vytvořen, zůstane prázdný. Protože toto je standardní chování PO souborů a ve výchozím nastavení je tato možnost zapnuta. Pokud je tato možnost vypnuta, do cílového segmentu bude zkopírován zdrojový text.

  • Přeskočit hlavičku PO

    Jestliže je tato možnost zaznačena, tak hlavička PO bude přeskočena a ponechána beze změny.

  • Automaticky v hlavičce nahradit 'nplurals=INTEGER; &plural=EXPRESSION;'

    Tato možnost umožňuje aplikaci OmegaT přepsat specifikaci v hlavičce souboru PO a použít výchozí hodnoty pro vybraný cílový jazyk.

Soubory XHTML

  • Přeložit následující atributy: - označené atributy se objeví jak segmenty v okně Editoru.

  • Začít nový odstavec od: tag <br> v HTML vytvoří odstavec pro účely segmentace.

  • Přeskočit text který se rovná regulárnímu výrazu: text představující regulární výraz bude ignorován. Validátor tagů toto zobrazí červeně jako odmítnuté. Text ve zdrojovém segmentu, který má shodu, bude zobrazen kurzívou.

  • Nepřekládejte obsah atributů meta-tagů ... : Následující meta-tagy nebudou přeloženy.

  • Nepřekládejte obsah tagů s následujícími atributy párů key-value [klíč-hodnota] (odděleno čárkou):: shoda v seznamu párů klíč-hodnota zapříčiní, že obsah tagů bude ignorován.

    Někdy se to totiž může hodit, když je možno definovat tagy podle hodnoty jejich atributů, a tyto tagy pak nepřekládat. Např. <div class="hide"> <span translate="no"> Můžete definovat páry klíč-hodnota pro tagy, které mají zůstat nepřeložené. Jako příklad poslouží nahoře uvedený příklad, pole by pak obsahovalo: class=hide, translate=no

Soubory Microsoft Office Open XML

Můžete vybrat, které elementy se mají překládat. V překladu budou zobrazeny jako samostatné segmenty.

  • MS Word: – text typu Neviditelné pokyny, komentáře, poznámky, koncové poznámky, zápatí

  • Excel: komentáře, Jména listů tabulkového procesoru

  • Power Point: Komentáře snímků, šablony snímků, rozložení snímků

  • Obecně: grafy, diagramy, kresby, WordArt

  • Další Možnosti:

    • Slučovat tagy do skupin: pokud je tato možnost zaškrtnuta, tagy bez překládaného textu mezi nimi budou sloučeny do jednoho tagu.

    • Zachovat mezery pro všechny tagy: když je tato možnost označena, budou zachovány tzv. „neviditelné znaky“ (tj. mezery a znaky nového řádku), dokonce i když nejsou technicky zadány v samotném dokumentu.

Soubory HTML a XHTML

  • Přidat nebo přepsat deklaraci kódování v souborech HTML a XHTML: cílové soubory často musí mít kódování znakové sady odlišné od kódování ve zdrojovém souboru (nezáleží na tom, jestli je to přímo definováno či implicitně obsaženo). Použitím této možnosti si překladatel může určit, zda cílové soubory mají obsahovat deklaraci kódování. Například, pokud pokud filtr souboru určí UTF8 jako kódovací schéma pro cílové soubory, výběrem možnosti ‚Vždy‘ zajistí, že tato informace bude obsažena v přeložených souborech.

  • Přeložit následující atributy: - označené atributy se objeví jak segmenty v okně Editoru.

  • Začít nový odstavec od: tag <br> v HTML vytvoří odstavec pro účely segmentace.

  • Přeskočit text který se rovná regulárnímu výrazu: text představující regulární výraz bude ignorován. Validátor tagů toto zobrazí červeně jako odmítnuté. Text ve zdrojovém segmentu, který má shodu, bude zobrazen kurzívou.

  • Nepřekládejte obsah atributů meta-tagů ... : Následující meta-tagy nebudou přeloženy.

  • Nepřekládejte obsah tagů s následujícími atributy párů key-value [klíč-hodnota] (odděleno čárkou):: shoda v seznamu párů klíč-hodnota zapříčiní, že obsah tagů bude ignorován.

    Někdy se to totiž může hodit, když je možno definovat tagy podle hodnoty jejich atributů, a tyto tagy pak nepřekládat. Např. <div class="hide"> <span translate="no"> Můžete definovat páry klíč-hodnota pro tagy, které mají zůstat nepřeložené. Jako příklad poslouží nahoře uvedený příklad, pole by pak obsahovalo: class=hide, translate=no

  • V přeloženém dokumentu komprimovat netisknutelné znaky: více po sobě jdoucích netisknutelných znaků bude v přeloženém dokumentu převedeno na jeden jediný netisknutelný znak.

  • V přeloženém dokumentu odstranit HTML komentáře: žádné části kódu označené jako komentář (mezi značkami <!-- a -->) nebudou skopírovány do přeloženého dokumentu.

Soubory formátu Open Document Format (ODF)

  • Můžete vybrat, které elementy se mají překládat.

    položky seznamu, záložky, odkazy na záložky, poznámky, komentáře, poznámky k prezentaci, linky (URL), jména listů tabulkového procesoru.

3. Dialogové okno Editovat Filtr

Dialogové okno vám umožní nastavit vzory názvů zdrojových souborů pro soubory, které bude filtr zpracovávat, přizpůsobit si názvy přeložených souborů a vybrat, jaké kódování se bude používat pro načtení souboru a uložení jeho přeloženého protějšku. Aby se daly upravovat vzory filtrů souborů, buď změníte daná pole přímo, nebo nakliknutím Editovat .... Kliknutím na Přidat... přidáte nový filtr. K přidání vzoru nebo editaci konkrétního vzoru se používá stejné dialogové okno. Dialogové okno je užitečné, protože obsahuje speciální vzory názvů cílových souborů a editor vám umožňuje upravovat názvy výstupních souborů.

3.1. Typ zdrojového souboru, vzor názvu souboru

Když OmegaT narazí na soubor ve svém zdrojovém adresáři (source), pokusí se vybrat filtr na základě přípony souboru. Přesněji, OmegaT se pokusí přiřadit vzory názvů zdrojových souborů každého filtru k názvu souboru. Například vzor *.xhtml se pak bude shodovat s jakýmkoliv souborem s příponou .xhtml. Pokud je nalezen vhodný filtr, soubor postupuje k dalšímu zpracování programem. Například ve výchozím nastavení se použije filtr XHTML pro zpracování souborů s příponou .xhtml. Můžete měnit nebo přidávat vzory názvů souborů pro filtry souborů, které budou u každého souboru zpracovávány. Vzory názvů zdrojových souborů používají náhradní znaky podobně jako v rámci funkce Hledat. Znak ‚*‛ reprezentuje nula nebo více znaků. Znak ‚?‛ reprezentuje jeden znak. Všechny ostatní znaky reprezentují sebe sama. Například, když chcete, aby byl textový filtr použitý na soubory čtimě (ctime, cti.me a ctime.txt) měli byste použít vzor cti*.

3.2. Kódování zdrojových a cílových souborů

Pouze omezené množství formátů souborů uvádí povinné kódování. Formáty souborů, které nespecifikují své kódování, použijí kódování, které zadáte v příponě odpovídající jeho názvu. Například může být implicitně nastaveno, že soubory .txt budou načítány s použitím výchozího kódování operačního systému. Můžete změnit kódování zdrojového souboru pro každý odlišný vzor názvu zdrojového souboru. Takové soubory mohou být zapsány v jakémkoliv kódování. Při výchozím nastavení je kódování přeloženého souboru stejné jako kódování souboru výchozího. Pole zdrojového a cílového kódování používají nabídky obsahující všechna podporovaná kódování. Volba <auto> ponechá výběr kódování na aplikaci OmegaT. A takto to funguje:

  • OmegaT najde kódování zdrojového souboru za užití jeho deklarace kódování, tedy pokud je nějaká deklarace k dispozici (soubory HTML, soubory založené na XML).

  • OmegaT má instrukci, že se má použít povinné kódování pro vybrané formáty souborů (Java properties atd.)

  • OmegaT použije pro textové soubory výchozí kódování operačního systému.

3.3. Název cílového souboru

Někdy můžete chtít automaticky přejmenovat soubory které překládáte, např. přidat kód jazyka za název souboru. Vzor názvu cílového souboru používá speciální syntaxi, takže pokud chcete editovat toto pole, musíte kliknout na Editovat ... a použít dialogové okno Upravit vzor. Pokud budete chtít obnovit výchozí nastavení filtru, klikněte na Výchozí nastavení. Můžete tedy upravovat název přímo v políčku vzoru pro název cílového souboru nebo v dialogovém okně filtrů souborů. Dialogové okno Upravit vzor nabízí následující možnosti:

  • Výchozí nastavení je ${filename} – celý název zdrojového souboru s příponou, takže název přeloženého souboru je stejný jako název zdrojového souboru.

  • ${nameOnly} – umožňuje vložit jen název zdrojového souboru bez přípony.

  • ${extension} – původní koncovka souboru

  • ${targetLocale} – kód cílového místního nastavení (ve formátu „xx_YY“).

  • ${targetLanguage} – kód cílového jazyka a země (ve formátu „XX-YY“).

  • ${targetLanguageCode} – pouze cílový jazyk („XX“).

  • ${targetCountryCode}– kód země jazyka překladu - jen "YY"

  • $(timestamp-????) – systémový čas s datumem v době generování, v různých formátech

    Příklady formátů jednoduchého formátování dat najdete v Dokumentaci Oracle.

  • ${system-os-name} – operační systém užívaného počítač

  • ${system-user-name) – jméno uživatele systému

  • ${system-host-name} – jméno hostitelského systému

  • ${file-source-encoding} – kódování zdrojového souboru

  • ${file-target-encoding} – kódování souboru s překladem

  • ${targetLocaleLCID) – cílové umístění ‚Microsoft target locale‛

Dodatečné varianty jsou dostupné pro proměnné ${nameOnly} (název) a ${Extension} (koncovka). V případě, že název souboru se kryje s jiným, je možno aplikovat proměnné ve tvaru $(název-počet koncovek) a ${koncovka-počet koncovek}. Pokud například se původní soubor jmenuje Dokument.xx.docx, následující proměnná vydá následující výsledek:

  • ${nameOnly-0} Dokument

  • ${nameOnly-1} Dokument.xx

  • ${nameOnly-2} Dokument.xx.docx

  • ${extension-0} docx

  • ${extension-1} xx.docx

  • ${extension-2} Dokument.xx.docx