Praca z tekstem niesformatowanym

Domyślne kodowanie
Niewłaściwe wyświetlanie znaków
Zestawy znaków i kodowanie
Rozwiązanie problemu w OmegaT

Domyślne kodowanie

Pliki tekstowe niesformatowane - w większości wypadków z rozszerzeniem .txt - zawierają wyłącznie informację tekstową. Nie ma jasno zdefiniowanej metody poinformowania komputera, jaki język zawierają. Najprościej mówiąc, oznacza to, że komputer domyślnie zakłada, że tekst jest napisany w tym samym języku, jakiego on sam używa.

Niewłaściwe wyświetlanie znaków

Jeżeli jesteś Rosjaninem, jest bardzo prawdopodobne, że twój komputer pracuje także w języku rosyjskim: menu są po rosyjsku, pliki, które otwierasz, są po rosyjsku itd. W większości wypadków komputer przyjmuje prawidłowe założenie ogólne odnośnie do zawartości plików: wszystkie zawierają język rosyjski i nie zawierają nic, czego nie możnaby wyświetlić rosyjskimi znakami.

Jeżeli jesteś rosyjskim tłumaczem, który tłumaczy z japońskiego, to japońskie pliki, które dostajesz, jeśli są to pliki tekstowe niesformatowane, będą najprawdopodobniej traktowane przez komputer jak pliki w języku rosyjskim. To dlatego, że w samym pliku nie ma informacji, która wskazywałaby komputerowi, w jakim języku jest on zapisany. Zawartość pliku japońskiego mogłaby być następująca:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Ponieważ twój edytor tekstu spodziewa się, że zawartość jest po rosyjsku, mógłby wyświetlić ją w ten sposób:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpВµВљЦ|ЦуГcБ[ГЛВ≈ВЈБB

Jednak nie ma to nic wspólnego z rosyjskim, to znaki japońskie nieprawidłowo wyświetlone jako znaki rosyjskie.

Jak każda inna aplikacja, OmegaT również ma z tym problem. Może tylko założyć, że domyślnie pliki tekstowe niesformatowane mogą być wyświetlane przy użyciu ustawień domyślnych systemu. Działa to dobrze, kiedy komputer pracuje na przykład w języku francuskim, a pliki są po angielsku lub kiedy komputer jest niemiecki, a pliki po włosku .

Zestawy znaków i kodowanie

Dlaczego miałoby to działać z angielskim i francuskim, a nie z rosyjskim i japońskim? Ponieważ angielski i francuski używają wspólnego zestawu znaków, mianowicie Latin-1 lub jego wariantów. Do niedawna, rosyjski i japoński nie korzystały z żadnych wspólnych zestawów znaków. Większość aktualnych zestawów znaków rosyjskich nie pokrywa się z japońskimi i odwrotnie. Efekt jest taki, jak widać powyżej.

Japoński klient pracuje na japońskim komputerze i tworzy pliki tekstowe, które zawierają tekst japoński. Zestaw znaków wybrany przez komputer klienta będzie zależał od systemu operacyjnego i innych ustawień, ale jest nieprawdopodobne, aby wybrany (japoński) zestaw znaków został poprawnie zinterpretowany przez komputer rosyjski.

To, jak informacja tekstowa w konkretnym zestawie znaków jest fizycznie przekazywana (tj. jakie są kody numeryczne, których komputer używa do interpretowania i wyświetlania tekstu), zależy od kodowania. Kiedy komputer czyta plik, "dekoduje" informację zgodnie z kodowaniem i wyświetla ją zgodnie z zestawem znaków. Z grubsza biorąc, jedno kodowanie odpowiada jednemu zestawowi znaków...

Rozwiązanie problemu w OmegaT

Są trzy podstawowe sposoby radzenia sobie z tym problemem w OmegaT. Wszystkie one wymagają zastosowania filtrów plików w menu Opcje.

Podaj kodowanie dla twoich plików tekstowych niesformatowanch - tj. plików z rozszerzeniem .txt: w części Pliki tekstowe okna dialogowego Filtry plików, zmień Kodowanie pliku źródłowego z <auto> na kodowanie odpowiadające twojemu plikowi źródłowemu .txt.
Zmień rozszerzenia twoich źródłowych plików tekstowych niesformatowanych (na przykład z .txt na .jp w przypadku tekstów japońskich): W części Pliki tekstowe okna dialogowego Filtry plików dodaj nowyWzór nazwy pliku źródłowego (na przykład *.jp ) i wybierz odpowiednie parametry kodowania pliku źródłowego i docelowego.
Zmień kodowanie twoich plików na Unicode: otwórz twój plik źródłowy w edytorze tekstu, który prawidłowo interpretuje jego kodowanie, i zapisz ten plik w kodowaniu "UTF-8". Zmień rozszerzenie pliku z .txt na .utf8. OmegaT automatycznie zinterpretuje ten plik jako plik UTF-8.

OmegaT domyślnie ma do dyspozycji następujący zestaw, aby ułatwić ci radzenie sobie z niektórymi plikami tekstowymi niesformatowanymi:

Pliki .txt są automatycznie (<auto>) interpretowane przez program OmegaT jako kodowane w domyślnym kodowaniu komputera.
Pliki .txt1 to pliki w ISO-8859-1, obejmującym większość języków Europy Zachodniej.
Pliki .txt2 to pliki w ISO-8859-2, obejmującym większość języków Europy Środkowej i Wschodniej.
Pliki .utf8 są interpretowane przez OmegaT jako kodowane w UTF-8 (kodowanie, które obejmuje prawie wszystkie języki świata).

Możesz sprawdzić to sam, wybierając pozycję Filtry plików w menu Opcje. Na przykład, kiedy masz czeski plik tekstowy (bardzo prawdopodobne, że napisany w kodzie ISO-8859-2), musisz tylko zmienić rozszerzenie .txt na .txt2, a OmegaT zinterpretuje jego zawartość prawidłowo. I oczywiście, jeśli chcesz być całkiem bezpieczny, rozważ przekonwertowanie takich plików do Unicode, tj. do formatu pliku .utf8.

Uwagi prawne

Spis treści

Indeks