Hoofdstuk 13. Vertaalgeheugens

1. Vertaalgeheugens in OmegaT
1.1. mappen tmx - locatie en doel
1.2. TMX back-up
1.3. TMX-bestanden en taal
1.4. Wezen-segmenten
2. Vertaalgeheugens opnieuw gebruiken
2.1. Importeren en exporteren van vertaalgeheugens
2.2. Maken van een vertaalgeheugen voor geselecteerde documenten
2.3. Delen van vertaalgeheugens
2.4. Gebruiken van TMX met alternatieve paren van taal
3. Bronnen met bestaande vertalingen
4. Pseudo-vertaald geheugen
5. Vertaalgeheugens bijwerken

1. Vertaalgeheugens in OmegaT

1.1. mappen tmx - locatie en doel

Projecten van OmegaT kunnen bestanden voor vertaalgeheugens bevatten - dit zijn bestanden met de extensie tmx - op vijf verschillende plaatsen:

map omegat

De map omegat bevat project_save.tmx en mogelijk een aantal back-ups van TMX-bestanden. Het bestand project_save.tmx bevat alle segmenten die in het geheugen zijn opgenomen sinds u het project startte. Dit bestand bestaat altijd in een project. De inhoud ervan zal altijd alfabetisch worden gesorteerd op het bronsegment.

hoofdmap project

De hoofdmap van het project bevat 3 tmx-bestanden, project_naam-omegat.tmx, project_naam-level1.tmx en project_naam-level2.tmx (waarin project_naam de naam is van uw project).

  • Het bestand level1 bevat alleen tekstuele informatie.

  • Het bestand level2 kapselt specifieke tags van OmegaT in binnen correcte TMX-tags zodat het bestand met zijn opmaakinformatie kan worden gebruikt in een vertaalprogramma dat TMX niveau 2-geheugens ondersteund of OmegaT zelf.

  • Het bestand OmegaT is inclusief OmegaT specifieke opmaaktags zodat het bestand kan worden gebruikt in andere OmegaT-projecten

Deze bestanden zijn kopieën van het bestand project_save.tmx, d.i. van het belangrijkste vertaalgeheugen van het project, exclusief de zogenaamde wezen-segmenten. Zij dragen toepasselijk gewijzigde namen, zodat de inhoud ervan steeds kan worden geïdentificeerd, indien elders gebruikt, bijvoorbeeld in de submap tm van een ander project (zie hieronder).

map tm

De map /tm/ kan een willekeurig aantal aanvullende vertaalgeheugens bevatten - d.i. tmx-bestanden. Zulke bestanden kunnen worden gemaakt in elk van de drie hierboven aangegeven variëteiten. Onthoud dat andere CAT-programma's tmx-bestanden kunnen exporteren (en ook importeren), gewoonlijk in alle drie vormen. Het beste is natuurlijk om OmegaT-specifieke TMX-bestanden te gebruiken (zie hierboven), zodat de in-regelige opmaak binnen het segment wordt behouden.

De inhoud van vertaalgeheugens in de submap tm dienen om suggesties te genereren voor de tekst(en) om te worden vertaald. Elke tekst, reeds vertaald en opgeslagen in deze bestanden, zal tussen de overeenkomsten verschijnen, indien het voldoende overeenkomt met de tekst die momenteel wordt vertaald.

Indien het bronsegment in één van de aanvullende TM's identiek is aan de tekst die wordt vertaald, gedraagt OmegaT zich zoals gedefinieerd is in het dialoogvenster OptiesBewerken (gedrag).... Bijvoorbeeld (als de standaard is geaccepteerd) zal de vertaling vanuit de aanvullende TM worden geaccepteerd en worden vooraf gegaan door [fuzzy], zodat de vertaler de vertalingen op een later tijdstip kan nakijken en controleren of segmenten die op deze manier zijn getagd, juist zijn vertaald (zie het hoofdstuk Bewerken (gedrag)) .

Het kan gebeuren dat vertaalgeheugens, beschikbaar in de submap tm, segmenten met identieke brontekst bevatten, maar afwijkende doelen. TMX-bestanden worden, gesorteerd op hun naam, gelezen en segmenten binnen een bepaald TMX-bestand regel na regel. Het laatste segment met de identieke brontekst zal dus worden gekozen (Opmerking: natuurlijk is het verstandiger om dit in de eerste plaats in zijn geheel te vermijden).

Onthoud dat de TMX-bestanden in de map tm kunnen worden gecomprimeerd met gzip.

map tm/auto

Als het vanaf het begin duidelijk is dat de vertalingen in een bepaald TM (of TM's) allemaal juist zijn, kan één van hen in de map tm/auto worden geplaatst en heel veel van de gevallen van bevestiging met [fuzzy] worden voorkomen. Dit zal de brontekst effectief vooraf vertalen : alle segmenten in de brontekst, waarvoor vertalingen kunnen worden gevonden in deze "auto"-TM's, zullen zonder interventie van de gebruiker belanden in de belangrijkste TM van het project.

map tm/enforce

Als u er niet aan twijfelt dat een TMX meer nauwkeurig is dan het bestand project_save.tmx van OmegaT, pplaats die TMX dan in /tm/enforce om bestaande standaard vertalingen onvoorwaardelijk te overschrijven.

map tm/mt

In het venster Bewerken, wanneer een overeenkomst wordt ingevoegd vanuit een TMX die is opgenomen in een map genaamd mt, wordt de achtergrond van het actieve segment gewijzigd naar rood. De achtergrond wordt hersteld naar normaal wanneer het segment wordt verlaten.

mappen tm/penalty-xxx

Soms is het handig om onderscheid te maken tussen vertaalgeheugens van hoge kwaliteit en die welke, vanwege het onderwerp, cliënt, revisiestatus, etc., minder betrouwbaar zijn. Voor vertaalgeheugens in mappen met de naam "penalty-xxx" (waarvan xxx ligt tussen 0 en 100), zullen overeenkomsten worden gedegradeerd overeenkomstig de naam van de map: een overeenkomst van 100% in een vertaalgeheugen dat zich bevindt in een map genaamd, bijvoorbeeld, Penalty-30, zal worden verlaagd naar een overeenkomst van 70%. De straf is van toepassing op alle drie de percentages voor de overeenkomsten: overeenkomsten van 75, 80, 90 zullen in dit geval worden verlaagd naar 45, 50, 60.

Optioneel kunt u OmegaT een aanvullend tmx-bestand laten hebben (OmegaT-opmaak) waar u dat maar wilt, dat alle te vertaalbare segmenten van het project bevat. Zie pseudo-vertaald geheugen hieronder.

Onthoud dat alle vertaalgeheugens in het geheugen worden geladen bij het openen van het project. Back-ups van het vertaalgeheugen van het project worden regelmatig gemaakt (zie het volgende hoofdstuk) en project_save.tmx wordt ook opgeslagen/bijgewerkt als het project wordt gesloten of opnieuw wordt geladen. Dit betekent bijvoorbeeld dat u het project waarin u momenteel werkt niet behoeft te verlaten als u besluit om er een andere aanvullende TM aan toe te voegen: u kunt eenvoudigweg het project opnieuw laden, en de wijzigingen die u hebt gemaakt zullen daarin worden opgenomen.

De locaties van de verschillende vertaalgeheugens voor een bepaald project zijn door de gebruiker gedefinieerd (zie dialoogvenster Project in Projecteigenschappen).

Afhankelijk van de situatie zijn dus verschillende strategieën mogelijk, bijvoorbeeld:

diverse projecten over hetzelfde onderwerp: behoud de projectstructuur en wijzig mappen voor bron en doel (Bron = bron/volgorde1, doel = doel/volgorde1 etc). Onthoud dat u segmenten uit volgorde1, die niet aanwezig zijn in volgorde2 en andere opvolgende taken, zullen worden getagd als wezen-segmenten; echter, zij zullen nog steeds handig zijn om overeenkomsten te verkrijgen.

verschillende vertalers werken aan hetzelfde project: splits de bronbestanden in bron/Alice, bron/Bob... en geef ze uit aan de leden van het team (Alice, Bob ...). Zij kunnen dan hun eigen projecten maken en hun eigen project_save.tmx, inleveren indien voltooid of wanneer een bepaalde mijlpaal is bereikt. De bestanden project_save.tmx worden dan verzameld en mogelijke conflicten met betrekking tot bijvoorbeeld terminologie worden opgelost. Een nieuwe versie van de hoofd-TM wordt dan gemaakt, ofwel om in de submappen tm/auto van de teamleden te worden geplaatst of om hun bestanden project_save.tmx in hun projecten te vervangen. Het team kan ook dezelfde structuur voor de submappen gebruiken voor de doelbestanden. Dit maakt het voor hen bijvoorbeeld mogelijk om op elk moment te controleren, of de doelversie voor het gehele project nog steeds OK is.

1.2. TMX back-up

Tijdens het vertalen van uw bestanden slaat OmegaT uw werk op in project_save.tmx in de submap /omegat van het project.

OmegaT maakt ook, elke keer als een project wordt geopend of herladen, een back-up van het vertaalgeheugen in project_save.tmx.JAARMMDDUUMM.bak in dezelfde submap. JAAR is 4-getallen jaar, MM is een maand, DD dag van de maand, UU en MM zijn uren en minuten van wanneer het vorige vertaalgeheugen werd opgeslagen.

Als u denkt dat u vertaalde gegevens kwijt bent, volg dan de volgende procedure:

  1. Sluit het project

  2. Hernoem het huidige project_save.tmx-bestand naar iets dat u zult onthouden (zoals bijvoorbeeld project_save.tmx.tijdelijk)

  3. Selecteer de back-up van het vertaalgeheugen dat meest waarschijnlijk (bijv. de meest recente of de laatste versie van de dag ervoor) de gegevens bevat die u nodig hebt

  4. Kopieer het als project_save.tmx

  5. Open het project

1.3. TMX-bestanden en taal

TMX-bestanden bevatten vertaaleenheden die zijn gemaakt van een aantal equivalente segmenten in verschillende talen. Een vertaaleenheid bestaat uit ten minste twee variaties van een vertaaleenheid (tuv). Beide kunnen als bron of doel worden gebruikt.

De instellingen in uw project geven aan wat de bron- en wat de doeltaal is. OmegaT neemt dus de tuv-segmenten die overeenkomen met de taalcodes van de bron en het doel in het project en gebruiken ze respectievelijk als de bron- en doelsegmenten. OmegaT herkent de taalcodes met behulp van de twee volgende standaard conventies:

  • 2 letters (bijv. JA voor Japans), of

  • 2- of 3-letter taalcode gevolgd door de 2-letter landcode (bijv. EN-US - Zie Bijlage A, Talen - ISO 639 codelijst voor een gedeeltelijke lijst van taal- en landcodes).

Als de taalcodes en de TMX-taalcodes voor het project volledig overeenkomen worden de segmenten in het geheugen geladen. Als de taal overeenkomt, maar niet de landcode worden de segmenten toch geladen. Als de taalcode, noch de landcode overeenkomen zullen de segmenten worden genegeerd.

TMX/bestanden kunnen over het algemeen vertaaleenheden bevatten voor verschillende kandidaat-talen. Indien er voor een opgegeven bronsegment geen item is voor de geselecteerde doeltaal, worden alle andere doelsegmenten geladen, ongeacht hun taal. Als bijvoorbeeld het taalpaar voor het project DE-FR is, kan het nog steeds hulp bieden om hits te zien in de vertaling DE-EN, als er in het DE-FR-paar geen aanwezig is.

1.4. Wezen-segmenten

Het bestand project_save.tmx bevat alle segmenten die zijn vertaald sinds u het project startte. Als u de segmentatie van het project aanpast of bestanden uit de bron verwijdert, zullen sommige overeenkomsten in het venster Overeenkomsten kunnen verschijnen als wezen-tekenreeksen: zulke overeenkomsten verwijzen niet langer naar segmenten die voorkomen in de brondocumenten, omdat zij overeenkomen met segmenten die werden vertaald en opgenomen vóór de aanpassingen plaats vonden.

2. Vertaalgeheugens opnieuw gebruiken

In het begin, dat is als het project wordt gemaakt, is de hoofd-TM van het project, project_save.tmx, leeg. Deze TM wordt gedurende de vertaling gevuld. Bestaande vertalingen kunnen worden gebruikt om dit proces te versnellen. Indien een bepaalde zin al eens is vertaald, en juist is vertaald, bestaat er geen reden om die opnieuw te gaan vertalen. Vertaalgeheugens kunnen ook vertaalgeheugens als verwijzingen bevatten: meertalige wetgeving, zoals van de Europese Gemeenschap is daarvan een typisch voorbeeld.

Wanneer u de doeldocumenten maakt in een project van OmegaT, wordt het vertaalgeheugen van het project uitgevoerd in de vorm van drie bestanden in de hoofdmap van uw project van OmegaT (zie de bovenstaande beschrijving). U kunt deze drie TMX-bestanden, (-omegat.tmx", "-level1.tmx" en "-level2.tmx"), beschouwen als een "exporteerbaar vertaalgeheugen", dat is: een export van de inhoud van uw huidige project in tweetalige vorm.

Indien u een vertaalgeheugen uit een vorig project zou willen gebruiken (bijvoorbeeld omdat het nieuwe project overeenkomt met het eerdere project, of terminologie gebruikt die eerder gebruikt is), kunt u deze vertaalgeheugens gebruiken als "invoer vertaalgeheugens", dat is: om in uw nieuwe project te importeren. In dit geval plaatst u de vertaalgeheugens die u wilt gebruiken in de mappen /tm of /tm/auto van uw nieuwe project: in het eerste geval zult u hits van deze vertaalgeheugens in het venster Overeenkomsten krijgen en in het laatste geval zullen deze TM's worden gebruikt om uw brontekst vooraf te vertalen.

Standaard staat de map /tm onder de hoofdmap van het project (bijvoorbeeld .../MijnProject/tm), maar u kunt in het dialoogvenster Projecteigenschappen een andere map kiezen als u dat wilt. Dit is handig als u regelmatig eerder gemaakte vertaalgeheugens gebruikt, bijvoorbeeld omdat zij over hetzelfde onderwerp gaan of voor dezelfde klant zijn. In dit geval zou een handige procedure zijn:

  • Maak een map (een "voorraadmap") op een handige locatie op uw harde schijf voor de vertaalgeheugens voor een bepaalde klant of onderwerp.

  • Elke keer als u een project voltooid, kopieert u één van de drie "exporteerbare" bestanden van vertaalgeheugens vanuit de map van het project naar de voorraadmap.

  • Als u een nieuw project begint voor hetzelfde onderwerp of voor dezelfde klant, navigeer naar de voorraadmap in het dialoogvenster Project > Eigenschappen > Project bewerken en selecteer het als de map voor het vertaalgeheugen.

Onthoud wel dat alle TMX-bestanden in de voorraadmap /tm worden geparset als het project wordt geopend, dus door daarin alle verschillende vertaalgeheugens die u voorhanden hebt te plaatsen, kan OmegaT onnodig langzamer maken. U zou zelfs kunnen overwegen om die, welke u niet meer nodig hebt, te verwijderen, als u eenmaal hun inhoud hebt gebruikt om het bestand project-save.tmx te vullen.

2.1. Importeren en exporteren van vertaalgeheugens

OmegaT ondersteunt geïmporteerde tmx-versies 1.1-1.4b (zowel niveau 1 als niveau 2). Dit maakt het mogelijk dat vertaalgeheugens die zijn gemaakt door andere programma's kunnen worden gelezen door OmegaT. OmegaT ondersteunt echter niet volledig geïmporteerde TMX-bestanden van niveau 2 (die niet alleen de vertaling opslaan, maar ook de opmaak). TMX-bestanden van niveau 2 kunnen nog steeds worden geïmporteerd en hun tekstuele inhoud kan worden bekeken in OmegaT, maar de kwaliteit van de overeenkomsten zal wat lager zijn.

OmegaT volgt zeer strikte procedures bij het laden van bestanden van vertaalgeheugens (TMX-bestanden). Als een fout in een dergelijk bestand wordt gevonden zal OmegaT de positie aangeven binnen het defecte bestand waarin de fout zich bevindt.

Sommige programma's staan er om bekend dat zij onder bepaalde omstandigheden ongeldige TMX-bestanden maken. Als u dergelijke bestanden als verwijzingen voor vertalingen in OmegaT wilt gebruiken, moeten zij worden gerepareerd of OmegaT zal een fout rapporteren en het weigeren te laden. Reparaties zijn kleine bewerkingen en OmegaT assisteert bij het oplossen van problemen met het gerelateerde foutbericht. U kunt advies aan de gebruikersgroep vragen als u problemen ondervindt.

OmegaT exporteert versie 1.4 TMX-bestanden (zowel niveau 1 en niveau 2). De export van niveau 2 komt niet volledig overeen met de standaard van niveau 2 maar is goed genoeg en zal correcte overeenkomsten genereren in andere programma's met vertaalgeheugens die TMX niveau 2 ondersteunen. Als u alleen tekstuele informatie wilt (en geen opmaakinformatie) gebruik dan het bestand van niveau 1 dat OmegaT heeft gemaakt.

2.2. Maken van een vertaalgeheugen voor geselecteerde documenten

In het geval dat vertalers hun TMX-basis willen delen terwijl zij sommige delen van hun vertalingen daaruit willen laten of juist bepaalde bestanden er in willen opnemen, is het delen van de volledige ProjectNaam-omegat.tmx niet aan de orde. Het volgende recept is slechts één van de mogelijkheden, maar eenvoudig genoeg te volgen en zonder gevaar voor de onderdelen.

  • maak een project, afzonderlijk van andere projecten, in het gewenste paar van talen, met een toepasselijke naam - onthoud dat de gemaakte TMX-en deze naam zullen bevatten.

  • Kopieer de documenten die u nodig hebt voor het vertaalgeheugen, naar de map source van het project.

  • Kopieer de vertaalgeheugens, die de vertalingen voor de hierboven genoemde documenten bevatten, naar de map tm/auto van het nieuwe project.

  • Start het project. Controleer op mogelijke fouten in tags met Ctrl+T en op niet-vertaalde segmenten met Ctrl+U. U kunt op Ctrl+D drukken om de doeldocumenten te maken en hun inhoud controleren om te controleren of alles is zoals verwacht mag worden.

  • Wanneer u het project verlaat bevatten de TMX-bestanden in de hoofdmap van het project (zie boven) nu de transities in het geselecteerde paar van talen, voor de bestanden die u naar de map source hebt gekopieerd. Kopieer ze naar een veilige plek voor toekomstige verwijzingen.

  • Verwijder de map van het project of archiveer het ergens weg van uw werkplek ot te vermijden dat het project opnieuw wordt gebruikt en dus toekomstige gevallen besmet.

2.3. Delen van vertaalgeheugens

In gevallen waar een team van vertalers betrokken is, zullen vertalers bij voorkeur algemene vertaalgeheugens delen dan hun eigen lokale versies te distribueren.

OmegaT werkt samen met SVN en Git, twee veel voorkomende softwareprogramma's voor versiebeheer en revisiecontrole systemen (RCS), beschikbaar onder een licentie van open bron. In het geval van OmegaT worden complete projectmappen - met andere woorden de betrokken vertaalgeheugens als ook de bronmappen, projectinstellingen etc - beheerd door het geselecteerde RCS. zie meer in hoofdstuk

2.4. Gebruiken van TMX met alternatieve paren van taal

Er kunnen gevallen zijn waar u een project hebt gedaan met bijvoorbeeld Nederlandstalige bronnen en een vertaling in, zeg Engels. Dan hebt u een vertaling nodig voor bijvoorbeeld Chinees, maar uw vertaler begrijpt geen Nederlands; zij begrijpt echter uitstekend Engels. In dit geval kan het vertaalgeheugen voor NL-EN dienen als een tussenstation om een vertaling van NL naar ZH te genereren.

De oplossing in ons voorbeeld is om het bestaande vertaalgeheugen te kopiëren naar de submap tm/tmx2source/ en het te hernoemen naar ZH_CN.tmx om de doeltaal van de tmx aan te geven. De vertaler zal Engelse vertalingen te zien krijgen voor bronsegmenten in Nederlands en die gebruiken om de Chinese vertaling te maken.

Belangrijk: de ondersteunende TMX moet worden hernoemd naar XX_YY.tmx, waar XX_YY de doeltaal van de tmx is, bijvoorbeeld naar ZH_CN.tmx in het voorbeeld hierboven. De brontalen voor project en TMX zouden natuurlijk identiek moeten zijn - NL in ons voorbeeld. Onthoud dat slechts één TMX voor een bepaald paar van talen mogelijk is, dus als er meerdere vertaalgeheugens bij betrokken zouden zijn, zou u ze allemaal moeten samenvoegen in de XX_YY.tmx.

3. Bronnen met bestaande vertalingen

Sommige typen bronbestanden (bijvoorbeeld PO, TTX, etc.) zijn tweetalig, d.i. zij dienen zowel als bron als als vertaalgeheugen. In zulke gevallen wordt een bestaande vertaling, die wordt gevonden in het bestand, opgenomen in project_save.tmx. Het wordt behandelt als een standaard vertaling, indien geen overeenkomst werd gevonden, of als een alternatieve vertaling, in het geval dat hetzelfde bronsegment bestaat, maar met een doeltekst. Het resultaat zal dus afhangen van de volgorde waarin de bronsegmenten zijn geladen.

Alle vertalingen van brondocumenten worden ook weergegeven in het venster Opmerkingen, aanvullend op het venster Overeenkomsten. In het geval van PO-bestanden wordt een straf van 20% toegepast op de alternatieve vertaling (d.i. een overeenkomst van 100% wordt een overeenkomst van 80%). Het woord [Fuzzy] wordt weergegeven op het bronsegment.

Wanneer u een gesegmenteerd TTX-bestand laadt zullen segmenten met bron = doel worden opgenomen, als "Vertaling mag gelijk zijn aan brontekst" in Opties → Bewerken (gedrag)... is geselecteerd. Dit zou verwarrend kunnen zijn, dus u zou kunnen overwegen om die optie in dit geval niet te selecteren.

4. Pseudo-vertaald geheugen

Opmerking

Alleen van belang voor gevorderde gebruikers!

Voordat segmenten worden vertaald wilt u ze misschien vooraf verwerken of op een andere manier behandelen dan met OmegaT mogelijk is. Als u bijvoorbeeld een pseudo-vertaling wilt maken om te testen, maakt OmegaT het u mogelijk om een aanvullend TMX-bestand te maken file dat alle segmenten van het project bevat. De vertaling in die tmx kan zijn

  • vertaling komt overeen met bron (standaard)

  • vertaalde segment is leeg

Het TMX-bestand mag elke naam hebben die u op wil geven. Een pseudo-vertaald geheugen kan worden gegenereerd met de volgende parameters voor de opdrachtregel:

java -jar omegat.jar --pseudotranslatetmx=<bestandsnaam> [pseudotranslatetype=[equal|empty]]

Vervang <bestandsnaam> door de naam van het bestand dat u wilt maken, ofwel absoluut of relatief naar de werkmap (de map van waaruit u OmegaT start). Het tweede argument --pseudotranslatetype is optioneel. De waarde ervan is ofwel equal (standaard waarde, voor bron=doel) of empty (doelsegment is leeg). U kunt de gemaakte tmx verwerken met elk programma dat u wilt. Hernoem het naar project_save.tmx en plaats het in de map omegat van uw project om het opnieuw in OmegaT te gebruiken.

5. Vertaalgeheugens bijwerken

Hele vroege versies van OmegaT waren slechts in staat bronbestanden in alinea's te segmenteren en nummerden de tags voor opmaak in HTML- en Open Document-bestanden niet consistent. OmegaT kan dergelijke TMX-bestanden herkennen en direct bijwerken om de kwaliteit van de fuzzy overeenkomsten te vergroten en uw vertaling op peil te brengen, zodat u dat werk niet handmatig hoeft te doen.

De TMX van een project wordt maar één keer bijgewerkt en zal in de bijgewerkte vorm worden weggeschreven in project-save.tmx; eerder gemaakte TMX-bestanden worden, elke keer als het project wordt geladen, direct bijgewerkt. Wees er attent op dat sommige wijzigingen in bestandsfilters in OmegaT zouden kunnen leiden tot totaal afwijkende segmentatie; als resultaat daarvan moet u in zulke zeer uitzonderlijke gevallen uw vertaling handmatig bijwerken.