Κεφάλαιο 13. Κατάτμηση αρχείων προέλευσης

1. Κανόνες κατάτμησης
2. Κανόνες προτεραιότητας
3. Δημιουργία ενός νέου κανόνα
4. Μερικά απλά παραδείγματα

Τα εργαλεία μετάφραστικής μνήμης λειτουργούν με μονάδες κειμένου που αποκαλούνται Τμήματα. Το OmegaT έχει δύο τρόπους για να κατακερματίζει ένα κείμενο: κατάτμηση ανά παράγραφο, ή ανά πρόταση (που είναι γνωστή και σαν “κατάτμηση βασισμένη σε κανόνες”). Μπορείτε να επιλέξετε το είδος κατάτμησης με ΈργοΙδιότητες... από το κύριο μενού και τσεκάρετε, ή αποεπιλέξτε, το κουτάκι επιλογής που προσφέρεται. Η κατάτμηση ανά παράγραφο είναι, σε κάποιες περιπτώσεις, πλεονεκτική, όπως στις πολύ δημιουργικές ή στυλιστικές μεταφράσεις στις οποίες ο μεταφραστής μπορεί να θέλει να αλλάξει τη σειρά ολόκληρων προτάσεων. Για την πλειοψηφία των έρων, πάντως, η κατάτμηση ανά παράγραφο είναι η προτιμώμενη επιλογή, αφού αποδίδει καλύτερες αντιστοιχίσεις από προηγούμενες μεταφράσεις. Αν έχει επιλεγεί η κατάτμηση ανά πρόταση, μπορείτε να ρυθμίσετε τους κανόνες με τις ΕπιλογέςΚατάτμηση...από το κύριο μενού.

Αξιόπιστοι κανόνες κατάτμησης υπάρχουν, ήδη, για πολλές γλώσσες, οπότε, είναι πιθανόν ότι δεν θα χρειαστεί να εμπλακείτε με τη συγγραφή των δικών σας κανόνων κατάτμησης. Από την άλλη, αυτή η λειτουργία μπορεί να αποδειχθεί πολύ χρήσιμη σε ειδικές περιπτώσεις, όπου μπορείτε να αυξήσετε την παραγωγικότητά σας, εναρμονίζοντας τους κανόνες κατάτμησης με το κείμενο που πρέπει να μεταφρασθεί.

Προειδοποίηση: επειδή το κείμενο θα καταμηθεί διαφορετικά μετά την αλλαγή επιλογών φίλτρου, τότε ενδέχεται να πρέπει να ξαναρχίσετε τη μετάφραση από το μηδέν. Συγχρόνως, τα μέχρι πρότινος έγκυρα τμήματα στη μεταφραστική μνήμη του έργου, θα μετατραπούν σε ορφανά τμήματα. Αν αλλάξετε τις επιλογές κατάτμησης όταν ένα έργο είναι ανοικτό, πρέπει να ξαναφορτώσετε το έργο, για να μπορούν να εφαρμοσθούν οι αλλαγές.

Το OmegaT χρησιμοποιεί την εξής σειρά βημάτων:

Κατάτμηση σε επίπεδο δομής

Το OmegaT πρώτα αναλύει (parses) το κείμενο για κατάτμηση σε επίπεδο δομής. Στη διάρκεια αυτής της διαδικασίας, χρησιμοποιείται μόνον η δομή του αρχείου προέλευσης για να παραχθούν τα τμήματα.

Για παράδειγμα, τα αρχεία κειμένου μπορούν να κατατμηθούν στις αλλαγές γραμμής, σε κενές γραμμές, ή να μην κατατμηθού καθόλου. Τα αρχεία που περιέχουν μορφοποίηση (έγγραφα ODF, έγγραφα HTML, κλπ.) κατακερματίζονται σε επίπεδο ετικετών block-level (παραγράφου). Οι ιδιότητες (attributes) των μεταφράσιμων αντικειμένων σε αρχεία XHTML ή HTML μπορούν να εξαχθούν σαν χωριστά τμήματα.

Κατάτμηση σε επίπεδο πρότασης

Μετά την κατάτμηση του αρχείου προέλευσης σε δομικές μονάδες, το OmegaT θα κατακερματίσει περαιτέρω αυτά τα blocks σε προτάσεις.

1. Κανόνες κατάτμησης

Η διαδικασία κατάτμησης μπορεί να περιγραφεί ως εξής: ο δείκτης μετακινείται κατά μήκος του κειμένου, κατά έναν χαρακτήρα κάθε φορά. Για την κάθε θέση του δείκτη, εφαρμόζονται, με τη δεδομένη σειρά τους, κανόνες που αποτελούνται από ένα μοτίβοBefore και After για να δούμε αν οποιαδήποτε μοτίβο Before είναι έγκυρο για το κείμενο στα αριστερά, ή για το αντίστοιχο μοτίβο After για το κείμενο στα δεξιά του δείκτη. Αν ο κανόνας αντιστοιχίζεται, είτε ο δείκτης μετακινείται χωρίς να εισαχθεί μια αλλαγή τμήματος (για έναν κανόνα εξαίρεσης), είτε δημιουργείται μία νέα αλλαγή τμήματος στην τρέχουσα θέση του δείκτη (για τον κανόνα αλλαγής).

Αυτα τα δύο είδη κανόνων συμπεριφέρονται ως εξής:

Κανόνας αλλαγής

Διασπά το κείμενο προέλευσης σε τμήματα. Για παράδειγμα, η φράση "Είχε έννοια; Δεν ήμουν σίγουρος." θα πρέπει να διασπασθεί σε δύο τμήματα. Για να το πετύχετε, πρέπει να υπάρχει ένας κανόνας αλλαγής για το ";", όταν αυτό ακολουθείται από διαστήματα και από μια λέξη γραμμένη με κεφαλαία. Για να ορίσετε έναν κανόνα ως κανόνα αλλαγής, τσεκάρετε το κουτί επιλογής Αλλαγή/Εξαίρεση.

Κανόνας εξαίρεσης

εξειδικεύστε ποια κομμάτια κειμένου ΔΕΝ πρέπει να διαχωρισθούν. Παρά την τελεία, το "Mrs. Dalloway " δεν πρέπει να χωριστεί σε δύο τμήματα. Οπότε, πρέπει να υιοθετηθεί ένας κανόνας εξαίρεσης για το Mrs (και για το Mr, Dr, Prof κλπ), ακολουθούμενο από μια τελεία. Για να ορίσετε έναν κανόνα ως κανόνα εξαίρεσης, αφήστε αποεπιλεγμένο το κουτάκι Αλλαγή/Εξαίρεση.

Οι προεπιλεγμένοι κανόνες αλλαγής πρέπει να είναι επαρκείς για τις περισσότερες Ευρωπαϊκές γλώσσες και τα Ιαπωνικά. Προς χάριν της ευελιξίας, μπορείτε να ορίσετε περισσότερους κανόνες εξαίρεσης για τη δική σας γλώσσα προέλευσης, για να προσφέρονται περισσότερα συμβατά τμήματα που να έχουν νόημα.

2. Κανόνες προτεραιότητας

Όλες οι ομάδες κανόνων κατάτμησης για την αντιστοίχιση μοτίβων γλωσσών είναι ενεργοί και εφαρμόζονται με τη δεδομένη σειρά προτεραιότητας, και άρα, οι κανόνες για ιδιαίτερες γλώσσες θα πρέπει να να είναι ψηλώτερα από τους προεπιλεγμένους. Για παράδειγμα, οι κανόνες για τα Καναδικά Γαλλικά (FR-CA) θα πρέπει να ορισθούν ψηλώτερα από τους κανόνες για τα Γαλλικά (FR.*), και ψηλώτερα από τους κανόνες Προεπιλογής (.*). Έτσι, όταν μεταφράζετε από τα Καναδικά Γαλλικά, θα εφαρμόζονται πρώτα οι κανόνες για τα Καναδικά Γαλλικά (αν υπάρχουν), ακολουθούμενοι από τους κανόνες για τα Γαλλικά και, τέλος, από τους κανόνες Προεπιλογής.

3. Δημιουργία ενός νέου κανόνα

Γενικά, θα πρέπει να αποφεύγετε μείζονες αλλαγές των κανόνων κατάτμησης, ειδικά μετά την ολοκλήρωση του πρώτου προσχεδίου, αλλά οι μικρές αλλαγές, σαν την προσθήκη ενός αναγνωρισμένου ακρωνυμίου, μπορεί να είναι πλεονεκτικές.

Για να επεξεργαστείτε, ή να επεκτείνετε, μια προϋπάρχουσα ομάδα κανόνων, απλώς κάντε κλικ πάνω της, στο επάνω μέρος του πίνακα. Οι κανόνες για την ομάδα αυτή θα εμφανισθούν στο κάτω ήμισυ του παραθύρου.

Για να δημιουργήσετε μια κενή ομάδα κανόνων, για ένα νέο μοτίβο γλώσσας, κάντε κλικ στο Προσθήκη στο άνω ήμισυ του διαλόγου. Θα εμφανισθεί μία κενή γραμμή στο κάτω μέρος του άνω πίνακα (μπορεί να χρειαστεί να κάνετε περιήγηση προς τα κάτω, για να το δείτε ολόκληρο). Αλλάξτε το όνομα της ομάδας κανόνων και του μοτίβου γλώσσας, στη γλώσσα που εμπλέκεται και της κωδικοπίησής της (δείτε στο Παράρτημα A, Γλώσσες - Κατάλογος με κωδικούς κατά ISO 639 για έναν κατάλογο με τους κωδικούς γλωσσών). Η σύνταξη του μοτίβου γλώσσας συμμορφώνεται με τη σύνταξη κανονικών εκφράσεων (regexp). Αν η ομάδα κανόνων χειρίζεται ένα ζεύγος γλώσσας-χώρας, σας συμβουλεύουμε να την μετακινήσετε στην κορυφή, χρησιμοποιώντας το κουμπί Μετακίνηση προς τα πάνω.

Πορσθέστε τα μοτίβα Before και After. Για να ελεγξετε τη σύνταξή τους και την εφαρμοσιμότητά τους, συστήνεται η χρήση εργαλείων που σας επιτρέπουν να δείτε άμεσα το αποτέλεσμά τους. Δείτε το κεφάλαιο σχετικά με τις Κανονικές εκφράσεις. Ένα καλό σημείο εκκίνησης θα είναι πάντοτε οι υπάρχοντες κανόνες.

4. Μερικά απλά παραδείγματα

Πρόθεση Πριν Μετά Σημείωση
Ορίστε την εκκίνηση του τμήματος μετά από μια τελεία ('.') ακκολοουθούμενη από ένα διάστημα, tab ... \. \s Το "\." αντιπροσωπεύει το σημείο στίξεως της τελείας. Το "\s" αντιπροσωπεύει οποιοδήποτε χαρακτήρα κενού διαστήματος (διάστημα, tab, νέα σελίδα, κλπ.)
Να μη γίνει κατάτμηση μετά το Mr. Mr\. \s Αυτός είναι ένας κανόνας εξαίρεσης. Έτσι, το κουτί επιλογής κανόνα δεν πρέπει να είναι τσεκαρισμένο
Ορίστε ένα τμήμα μετά το "。" (είναι η Ιαπωνική τελεία)   σημειώστε ότι το after είναι κενό
Να μη γίνει κατάτμηση μετά το M. Mr. Mrs. και Ms. Mr??s??\. \s Κανόνας εξαίρεσης - βλέπε τη χρήση του ? στις κανονικές εκφράσεις