Pliki tekstowe niesformatowane - w większości wypadków z rozszerzeniem .txt
- zawierają wyłącznie informację tekstową. Nie ma jasno zdefiniowanej metody poinformowania komputera, jaki język zawierają. Najprościej mówiąc, oznacza to, że komputer domyślnie zakłada, że tekst jest napisany w tym samym języku, jakiego on sam używa.
Jeżeli jesteś Rosjaninem, jest bardzo prawdopodobne, że twój komputer pracuje także w języku rosyjskim: menu są po rosyjsku, pliki, które otwierasz, są po rosyjsku itd. W większości wypadków komputer przyjmuje prawidłowe założenie ogólne odnośnie do zawartości plików: wszystkie zawierają język rosyjski i nie zawierają nic, czego nie możnaby wyświetlić rosyjskimi znakami.
Jeżeli jesteś rosyjskim tłumaczem, który tłumaczy z japońskiego, to japońskie pliki, które dostajesz, jeśli są to pliki tekstowe niesformatowane, będą najprawdopodobniej traktowane przez komputer jak pliki w języku rosyjskim. To dlatego, że w samym pliku nie ma informacji, która wskazywałaby komputerowi, w jakim języku jest on zapisany. Zawartość pliku japońskiego mogłaby być następująca:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Ponieważ twój edytor tekstu spodziewa się, że zawartość jest po rosyjsku, mógłby wyświetlić ją w ten sposób:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Jednak nie ma to nic wspólnego z rosyjskim, to znaki japońskie nieprawidłowo wyświetlone jako znaki rosyjskie.
Jak każda inna aplikacja, OmegaT również ma z tym problem. Może tylko założyć, że domyślnie pliki tekstowe niesformatowane mogą być wyświetlane przy użyciu ustawień domyślnych systemu. Działa to dobrze, kiedy komputer pracuje na przykład w języku francuskim, a pliki są po angielsku lub kiedy komputer jest niemiecki, a pliki po włosku .
Dlaczego miałoby to działać z angielskim i francuskim, a nie z rosyjskim i japońskim? Ponieważ angielski i francuski używają wspólnego zestawu znaków, mianowicie Latin-1 lub jego wariantów. Do niedawna, rosyjski i japoński nie korzystały z żadnych wspólnych zestawów znaków. Większość aktualnych zestawów znaków rosyjskich nie pokrywa się z japońskimi i odwrotnie. Efekt jest taki, jak widać powyżej.
Japoński klient pracuje na japońskim komputerze i tworzy pliki tekstowe, które zawierają tekst japoński. Zestaw znaków wybrany przez komputer klienta będzie zależał od systemu operacyjnego i innych ustawień, ale jest nieprawdopodobne, aby wybrany (japoński) zestaw znaków został poprawnie zinterpretowany przez komputer rosyjski.
To, jak informacja tekstowa w konkretnym zestawie znaków jest fizycznie przekazywana (tj. jakie są kody numeryczne, których komputer używa do interpretowania i wyświetlania tekstu), zależy od kodowania. Kiedy komputer czyta plik, "dekoduje" informację zgodnie z kodowaniem i wyświetla ją zgodnie z zestawem znaków. Z grubsza biorąc, jedno kodowanie odpowiada jednemu zestawowi znaków...
Są trzy podstawowe sposoby radzenia sobie z tym problemem w OmegaT. Wszystkie one wymagają zastosowania filtrów plików w menu Opcje.
.txt
: w części Pliki tekstowe okna dialogowego Filtry plików, zmień Kodowanie pliku źródłowego z <auto> na kodowanie odpowiadające twojemu plikowi źródłowemu .txt
..txt
na .jp
w przypadku tekstów japońskich): W części Pliki tekstowe okna dialogowego Filtry plików dodaj nowyWzór nazwy pliku źródłowego (na przykład *.jp
) i wybierz odpowiednie parametry kodowania pliku źródłowego i docelowego..txt
na .utf8
. OmegaT automatycznie zinterpretuje ten plik jako plik UTF-8.OmegaT domyślnie ma do dyspozycji następujący zestaw, aby ułatwić ci radzenie sobie z niektórymi plikami tekstowymi niesformatowanymi:
.txt
są automatycznie (<auto>) interpretowane przez program OmegaT jako kodowane w domyślnym kodowaniu komputera..txt1
to pliki w ISO-8859-1, obejmującym większość języków Europy Zachodniej..txt2
to pliki w ISO-8859-2, obejmującym większość języków Europy Środkowej i Wschodniej..utf8
są interpretowane przez OmegaT jako kodowane w UTF-8 (kodowanie, które obejmuje prawie wszystkie języki świata).Możesz sprawdzić to sam, wybierając pozycję Filtry plików w menu Opcje. Na przykład, kiedy masz czeski plik tekstowy (bardzo prawdopodobne, że napisany w kodzie ISO-8859-2), musisz tylko zmienić rozszerzenie .txt
na .txt2
, a OmegaT zinterpretuje jego zawartość prawidłowo. I oczywiście, jeśli chcesz być całkiem bezpieczny, rozważ przekonwertowanie takich plików do Unicode, tj. do formatu pliku .utf8.
Uwagi prawne | Spis treści | Indeks |