Κεφάλαιο 11. Εγασίες με απλό κείμενο

1. Προεπιλεγμένη Κωδικοποίηση
2. Η λύση του OmegaT

1. Προεπιλεγμένη Κωδικοποίηση

Τα αρχεία απλού κειμένου - στις περισσότερες περιπτώσεις έχουν μια επέκτσαση txt - περιέχουν απλώς πληροφορίες κειμένου και δεν δίνουν σαφείς πληροφορίες στον υπολογιστή για τη γλώσσα που περιέχουν. Όλο κι όλο που μπορεί να κάνει το OmegaT σε αυτή την περίπτωση, είναι να θεωρήσει δεδομένο ότι το κείμενο έχει γραφεί στην ίδια γλώσσα που χρησιμοποιεί και ο ίδιος ο υπολογιστής. Αυτό δεν είναι πρόβλημα για αρχεία που είναι κωδικοποιημένα σε Unicode με χρήση ενός set χαρακτήρων με κωδικοποίηση 16-bit. Αν το κείμενο είναι, όμως, κωδικοποιημένο σε 8 bits, μπορεί να βρεθεί κάποιος αντιμέτωπος με την εξής περίερργη κατάσταση: αντί να εμφανίζει το κείμενο, για Ιαπωνικούς χαρακτήρες...

...το σύστημα θα το εμφανίζει ως εξής, για παράδειγμα:

Ο υπολογιστής που τρέχει το OmegaT, έχει τα Ρωσικά ως γώσσα προεπιλογής και, έτσι, δείχνει τους χαρακτήρες σε Κυριλλικό αλφάβητο και όχι σε Kanji.

2. Η λύση του OmegaT

Υπάρχουν, ουσιαστικά, τρεις τρόποι για να αντιμετωπισθεί αυτό το πρόβλημα στο OmegaT. Προβλέπουν όλοι την εφαρμογή των φίλτρων αρχείου στο μενού Επιλογές .

Αλλάξτε την κωδικοποίηση των αρχείων σας σε Unicode

ανοίξτε το αρχείο προέλευσης σε ένα πρόγραμμα επεξεργασίας απλού κειμένου (text editor) που ερμηνεύει σωστά την κωδικοποίησή του και αποθηκεύει το αρχείο με κωδικοποίηση "UTF-8" . Αλλάξτε την επέκταση του αρχείου από το .txt σε .utf8. Το OmegaT θα ερμηνεύσει αυτομάτως το αρχείο ως αρχείο UTF-8. Αυτή είναι η πιο λογική εναλλακτική, η οποία θα σας γλυτώσει από προβλήματα μακροπρόθεσμα.

Καθορίστε την κωδικοποίηση για τα αρχεία σας απλού κειμένου

- π.χ. τα αρχεία με επέκταση .txt : στην ενότητα Αρχεία κειμένου του διαλόγου Φίλτρα αρχείου, αλλάξτε την Κωδικοποίηση Αρχείου προέλευσης από το <auto> στην κωδικοποίηση που αντιστοιχεί στο αρχείο προέλευσης σας .txt , π.χ., στο .jp για το παραπάνω παράδειγμα.

Αλλάξτε τις επεκτάσεις των αρχείων σας με απλό κείμενο

για παράδειγμα από .txt σε .jp για απλά κείμενα στα Ιαπωνικά: στην ενότητα Αρχεία κειμένου του διαλόγου Φίλτρα αρχείου και προσθέστε νέο Μοτίβο Ονόματος αρχείου προέλευσης (*.jp στο παράδειγμα αυτό) και επιλέξτε τις κατάλληλες παραμέτρους για την κωδικοποίηση προέλευσης και προορισμού

Το OmegaT διαθέτει, από προεπιλογή, την εξής σύντομη λίστα για να σας διευκολύνει στον χειρισμό ορισμένων απλών αρχείων κειμένου:

  • .txt τα αρχεία ερμηνεύονται αυτομάτως (<auto>) από το OmegaT ως κωδικοποιημένα στην προεπιλεγμένη κωδικοποίηση του υπολογιστή.

  • Τα αρχεία .txt1 είναι αρχεία σε ISO-8859-1, που καλύπτουν τις περισσότερες Δυτικοευρωπαϊκές γλώσσες.

  • Τα αρχεία .txt2 είναι αρχεία σε ISO-8859-2, που καλύπτουν τις περισσότερες Κεντροευρωπαϊκές και Ανατολικοευρωπαΐκές γλώσσες

  • Τα αρχεία .utf8 ερμηνεύονται από το OmegaT σαν κωδικοποιημένα σε UTF-8 (μια κωδικοποίηση που καλύπτει σχεδόν όλες τις γλώσσες του κόσμου).

Μπορείτε να ελέγξετε και εσείς οι ίδιοι, επιλέγοντας την καταχώρηση Φίλτρα αρχείου στο μενού Επιλογές. Για παράδειγμα, αν έχετε ένα αρχείο κειμένου στα Τσεχικά (πολύ πιθανό να είναι γραμμένο με κωδικό ISO-8859-2) πρέπει, απλώς, να αλλάξετε την επέκταση .txt σε .txt2 και το OmegaT θα ερμηνεύσει σωστά τα περιεχόμενα. Και, ασφαλώς, αν θέλετε να είστε ασφαλείς, εξετάστε την περίπτωση μετατροπής αυτού του είδους αρχείου, σε Unicode, δηλ. σε μορφή αρχείου .utf8 .