Chapitre 9. Fichiers à traduire

1. Formats de fichier
1.1. Fichiers texte brut
1.2. Fichiers texte formaté
1.3. Fichiers PDF
2. Autres formats de fichier
3. Les langues qui se lisent de droite à gauche
3.1. Mélange entre les chaînes RTL et LTR dans les segments
3.2. OmegaT Les balises dans les segments RTL
3.3. Création de documents traduits RTL(droite à gauche)

1. Formats de fichier

Vous pouvez utiliser OmegaT pour traduire des fichiers dans un grand nombre de formats. On trouve essentiellement deux types de formats de fichier : les textes bruts et les textes formatés.

1.1. Fichiers texte brut

Les fichiers texte brut contiennent uniquement du texte, de sorte que pour effectuer leur traduction il suffit de taper celle-ci dans le logiciel. Il existe différentes méthodes qui permettent de spécifier l'encodage du fichier de sorte que son contenu ne soit pas tronqué lorsque le fichier est ouvert dans OmegaT. Ces fichiers ne contiennent pas d'information de formatage en dehors des « caractères d'espacement » utilisés pour aligner le texte, indiquer la présence d'un paragraphe ou insérer des sauts de page. Ils sont incapables de contenir ou de retenir les informations qui concerneraient la couleur, la police, etc. du texte. À l'heure actuelle, OmegaT prend en charge les formats de texte brut suivants :

  • Texte ASCII (.txt, etc.)

  • Unicode UTF-8 (*.UTF8)

  • Paquets de ressource Java (*.properties)

  • Fichiers PO (*.po)

  • INI (clé=valeur) (*.ini)

  • DTD (*.DTD)

  • Fichiers DokuWiki (*.txt)

  • Sous-titres SubRip (*.srt)

  • Fichiers localisation Magento CE (*.csv)

Les autres types de fichiers texte brut peuvent être traités par OmegaT. Leur extension de fichier doit alors être associée à un type de fichier déjà pris en charge (par exemple, les fichiers .pod peuvent être associés au filtre texte ASCII) et les fichiers doivent être pré-traités à l'aide de règles de segmentation spécifiques.

Les fichiers PO peuvent contenir à la fois le texte source et le texte cible. De ce point vue, Ils sont à la fois des fichiers de texte brut et des mémoires de traduction. Si pour un segment source donné, il n'existe pas encore de traduction dans la mémoire de traduction du projet (project_save.tmx), la traduction en cours sera enregistrée dans le fichier project_save.tmx comme traduction par défaut. Cependant, si le même segment source existe déjà et possède une traduction différente, la nouvelle traduction sera enregistrée en tant qu'alternative.

1.2. Fichiers texte formaté

Les fichiers de texte formaté contiennent des informations de type : police, taille, couleur etc. aussi bien que du texte. Ils sont généralement créés dans des traitements de texte ou des éditeurs HTML. Ces formats de fichier sont conçus pour retenir les informations de formatage. Une information de formatage peut aller du simple “ceci est en caractère gras”, à un tableau de données complexe utilisant différentes tailles de police, couleurs, positions, etc. Dans la plupart des travaux de traduction, on considère qu'il est important de conserver le formatage du texte original lors de la traduction. OmegaT vous permet de faire cela en marquant les caractères/mots qui ont un formatage spécial avec des balises faciles à manier. Simplifier le formatage du texte original contribue grandement à réduire le nombre de balises. Lorsque cela est possible, unifier les polices, les tailles de police, les couleurs, etc. utilisées dans le document simplifie le travail de traduction et réduit le nombre d'erreurs de balises. Chaque type de fichier est traité différemment par OmegaT. Des comportements spécifiques peuvent être mis en place dans les filtres de fichiers. A l'heure actuelle, OmegaT prend en charge les formats de texte formaté suivants :

  • Format ODF - OASIS Open Document (*.ods, *.ots, *.odt, *.ott, *.odp, *.otp)

  • Microsoft Office Open XML (*.docx, *.dotx, *.xlsx, *.xltx, *.pptx)

  • (X)HTML (.html, .xhtml,.xht)

  • HTML Help Compiler (.hhc, .hhk)

  • DocBook (.xml)

  • XLIFF (*.xlf, *.xliff, *.sdlxliff) - format source = format cible

  • CopyFlowGold pour QuarkXPress (.tag, .xtg)

  • Fichiers ResX (*.resx)

  • Ressource Android (*.xml)

  • LaTeX (.tex, .latex)

  • Fichiers d'aide (*.xml) et de manuel (*.hmxp)

  • Typo3 LocManager (.xml)

  • Localisation WiX (*.wxl)

  • Iceni Infix (*.xml

  • Exportation Flash XML (*.xml)

  • Wordfast TXML (*.txml)

  • Camtasia pour Windows (*.camproj)

  • Visio (*.vxd)

  • Propriété XML Java (*.xml)

  • Schematron (*.sch)

D'autres types de fichier texte formaté peuvent également être pris en charge par OmegaT en associant leur extension de fichier à un type de fichier déjà pris en charge, ceci en supposant que les règles de segmentation correspondantes les segmenteront correctement.

1.3. Fichiers PDF

Les fichiers PDF sont un cas particulier. Ils contiennent des informations de mise en forme du texte qu'OmegaT ne peut pas réutiliser pour créer les fichiers cible. Les fichiers PDF sont donc traités comme des fichiers de texte brut et les fichiers de sortie sont aussi au format texte brut.

Pour reproduire la mise en forme du texte et d'autres éléments, par exemple des graphiques, dans votre traduction, suivez une des trois méthodes suivantes :

  1. Utilisez le filtre par défaut d'OmegaT (Entrée PDF), traduisez, créez le fichier cible (qui sera au format de fichier texte brut), puis ajoutez manuellement la mise en forme et les éléments.

  2. Utilisez le filtre Iceni Infix. Consultez le guide pratique relatif à la traduction de fichiers PDF avec Iceni Infix et OmegaT.

  3. Importez le fichier source dans LibreOffice Draw, enregistrez-le sous le format ODG, traduisez-le et puis exportez-le au format PDF si besoin.

Note : la méthode ci-dessus convient uniquement aux fichiers PDF qui contiennent une couche de texte. Si votre fichier PDF se compose de pages numérisées, vous devrez utiliser un programme de reconnaissance optique de caractères (ROC ou, en anglais, OCR) pour reconnaître et convertir le texte dans un format pris en charge par OmegaT.

2. Autres formats de fichier

Il est également possible de trouver d'autres fichiers texte brut ou fichiers texte formaté susceptibles d'être pris en charge par OmegaT.

Des outils externes peuvent être utilisés pour convertir les fichiers dans des formats pris en charge. Les fichiers traduits devront alors être reconvertis dans le format original. Par exemple, si vous possédez une ancienne version de Microsoft Word, qui ne prend pas en charge le format ODT, vous trouverez ici le moyen de permettre aux fichiers Word portant l'extension DOC de faire l'aller-retour :

  • Importez le fichier dans ODF writer

  • Enregistrez le fichier dans un format ODT

  • Traduisez-le dans un fichier ODT cible

  • Ouvrez le fichier cible dans ODF Writer

  • Enregistrez le fichier en tant que fichier DOC

La qualité du formatage du fichier traduit va dépendre de la qualité de la conversion aller-retour. Avant de procéder à une telle conversion, assurez-vous d'avoir testé toutes les options. Vérifiez la page d'accueil d'OmegaT pour obtenir une liste à jour des outils de traduction auxiliaires.

3. Les langues qui se lisent de droite à gauche

La justification des segments source et cible dépend des langues du projet. Par défaut, la justification à gauche est utilisée pour les langues qui se lisent de gauche à droite (LTR) et la justification à droite pour les langues qui se lisent de droite à gauche (RTL). Vous pouvez basculer d'un mode d'affichage à l'autre en appuyant sur Maj+Ctrl+O (il s'agit de la lettre O et non du nombre 0). Le basculementMaj+Ctrl+O vous permet d'osciller entre trois résultats :

  • La justification par défaut, qui est définie par la langue

  • La justification à gauche

  • La justification à droite

L'utilisation du mode RTL (de droite à gauche) dans OmegaT n'a aucune influence sur le mode d'affichage des documents traduits dans OmegaT. Le mode d'affichage des documents traduits doit être modifié dans l'application (par exemple, Microsoft Word) qui est généralement utilisée pour les afficher ou les modifier (consultez les guides correspondants pour plus de détails). Utiliser Maj+Ctrl+O provoque des changements à la fois au niveau de la saisie du texte et au niveau de l'affichage dans OmegaT. Ce mode peut être utilisé pour chacun des trois volets pris séparément (Éditeur, Correspondances et Glossaires) en cliquant sur le volet choisi et en faisant basculer le mode d'affichage. Il peut également être utilisé dans tous les champs de saisie présents dans OmegaT - dans la fenêtre de recherche, pour les règles de segmentation, etc.

Remarque pour les utilisateurs de Mac OS X : utilisez le raccourci Maj+Ctrl+O et pas cmd+Ctrl+O.

3.1. Mélange entre les chaînes RTL et LTR dans les segments

Lors de la rédaction de texte purement RTL, l'affichage par défaut (LTR) peut être utilisé. Dans de nombreux cas, cependant, il est nécessaire d'intégrer le texte LTR dans un texte RTL. Par exemple, pour les balises OmegaT, pour les noms de produits qui doivent être laissés dans une langue source LTR, pour l'emplacement des supports dans les fichiers de localisation, et pour les numéros dans le texte. Dans des cas comme celui-ci, il est nécessaire de basculer en monde RTL, de sorte que le texte RTL (qui est en fait bidirectionnel) soit affiché correctement. Il est à noter que lorsqu'OmegaT est en mode RTL, la source et la cible sont toutes les deux affichées en mode RTL. Ce qui signifie que si la langue source est une LTR et la langue cible une RTL, ou vice-versa, il sera peut-être nécessaire de basculer régulièrement entre les modes RTL et LTR afin de facilement voir la source et saisir la cible dans leur mode respectif.

3.2. OmegaT Les balises dans les segments RTL

Comme indiqué ci-dessus, les balises d'OmegaT sont des chaînes LTR. Pour les traductions entre langues RTL et LTR, il peut être nécessaire, pour lire correctement les balises de la source et les entrer correctement dans la cible, que le traducteur bascule un grand nombre de fois entre les modes LTR et RTL.

Si le document le permet, le traducteur est vivement encouragé à retirer un maximum d'informations de style du document original de sorte que le moins de balises possible apparaissent dans l'interface d'OmegaT. Suivez les indications données dans Conseils pour la gestion des balises. De façon générale, validez les balises (voir Validation de balise) et enregistrez les documents traduits (voir ci-dessous et dans le Menu) à intervalles réguliers pour rendre plus facile la résolution des problèmes éventuels. Un conseil : traduire une version texte brut d'un texte et ajouter ultérieurement les styles nécessaires dans l'application appropriée peut s'avérer moins compliqué.

3.3. Création de documents traduits RTL(droite à gauche)

Lorsque le document traduit est créé, la direction qu'il affiche est la même que celle du document original. Si le document original était en LTR, la direction affichée par le document cible doit être basculée manuellement en RTL dans son application de lecture. Chaque format de sortie gère l'affichage RTL à sa façon ; consultez le guide de l'application appropriée pour plus de détails.

Pour les fichiers .docx, un certain nombre de changements sont cependant effectués automatiquement :

  • Les paragraphes, les sections et les tableaux sont définis de façon bidirectionnelle
  • Les exécutions (éléments textes) sont définies en RTL

Pour éviter que les paramètres d'affichage des fichiers cible ne changent à chaque fois que les fichiers sont ouverts, il est possible de changer les paramètres d'affichage des fichiers source de sorte que les fichiers cible héritent de ces paramètres. De telles modification sont possibles, par exemple, dans les fichiers ODF.