Chapter 21. Strojno prevođenje

1. Uvod
2. Google prevoditelj
3. Korisnici programa OmegaT i Google prevoditelj
4. Belazar
5. Apertium
6. MyMemory (strojno prevođenje)
7. Microsoft prevoditelj
8. Yandex Translate
9. Strojno prevođenje – rješavanje problema

1. Uvod

Za razliku od prijevodnih memorija koje izrađuju korisnici (kao u slučaju programa OmegaT), alati za strojno prevođenje (engl. machine translation – MT) za izradu prijevoda izvornih segmenata koriste lingvističke alate na temelju pravila, dakle bez potrebe za prijevodnim memorijama. Za izgradnju prijevodnih modela koriste se tehnike učenja na temelju statističke obrade izvorišnih i odredišnih tekstova. Istraživanja pokazuju da servisi za strojno prevođenje ostvaruju dobre rezultate i stalno se poboljšavaju.

Željeni servis za strojno prevođenje možete aktivirati putem izbornika Mogućnosti > Strojni prijevod..., nakon čega ga odabirete. Imajte na umu da se svi takvi servisi nalaze na webu pa stoga morate biti spojeni na internet ako ih želite koristiti.

2. Google prevoditelj

Google prevoditelj je usluga koja se plaća, a nudi je Google za prevođenje rečenica, web stranica i cjelovitih tekstova na sve većem broju raspoloživih jezika. U vrijeme pisanja ovoga teksta obuhvaćeno je više od 50 jezika, od albanskoga do jidiša, uključujući i sve glavne jezike. Trenutna inačica usluge temelji se na načinu korištenja, po cijeni od 20 USD za milijun znakova u vrijeme pisanja ovoga teksta.

Važno: Google prevoditelj API v2 zahtijeva podatke za naplatu za sve račune prije omogućavanja korištenja usluge (više pojedinosti možete pronaći na stranici gdje su navedene cijene i uvjeti usluge). Identifikacija važećih korisnika usluga koje nudi Google obavlja se privatnim jedinstvenim ključem koji Google šalje nakon registriranja za uslugu. Pojedinosti o načinu dodavanja toga ključa u program OmegaT naći ćete u poglavlju Instaliranje i pokretanje, odjeljak Naredbeni argumenti za pokretanje.

Kvaliteta prijevoda koje nudi Google prevoditelj s jedne strane ovisi o fundusu tekstova na odredišnome jeziku i raspoloživosti njihovih dvojezičnih inačica, a s druge o kvaliteti izgrađenih modela. S popriličnom se sigurnošću može kazati da kvaliteta možda i jest nedostatna u nekim slučajevima, ali s vremenom će se ipak poboljšavati.

3. Korisnici programa OmegaT i Google prevoditelj

Korisnici programa OmegaT ne moraju upotrebljavati uslugu Google prevoditelj. Ako je pak upotrebljavaju, Google ne dobiva informacije o korisnikovoj odluci o prihvaćanju prijevoda ili o konačnome prijevodu. U sljedećem je prozoru prikazan primjer: a) izvorišnoga teksta na engleskom, b) prijevoda na španjolski i c) prijevoda na slovenski obavljenih putem usluge Google prevoditelj.

Figure 21.1. Google prevoditelj – primjer

Google prevoditelj – primjer

Prijevod na španjolski je kvalitetniji od onoga na slovenski. Valja primijetiti da su interesar i navegar pravilno prevedeni na španjolski kao glagoli (interest i sail u izvorniku). Na slovenski su pak obje riječi prevedene kao imenice. Ustvari, vrlo je vjerojatno da se prijevod na španjolski barem djelomice temelji na postojećemu književnom prijevodu.

Nakon aktiviranja usluge, prijedlozi prijevoda prikazuju se u oknu strojnoga prijevoda pri svakom otvaranju novoga segmenta. Predloženi prihvatljivi prijevod možete umetnuti u odredišni segment kombinacijom tipki Ctrl+M. Primjerice, u gore prikazanome segmentu bismo pritiskom na Ctrl+M zamijenili prijevod na španjolski prijedlogom na slovenskome jeziku.

Ako ne želite da OmegaT šalje vaše izvorišne segmente servisu Google radi prevođenja, odznačite stavku izbornika Google prevoditelj na izborniku Mogućnosti.

Dobro je znati da se servisima za strojno prevođenje šalju samo izvorišni segmenti. Web inačica Google prevoditelja omogućava korisnicima ispravljanje prijedloga i dostavljanje revidiranih segmenata. Međutim, ta funkcija nije ugrađena u program OmegaT.

4. Belazar

Belazar je alat za strojno prevođenje za jezični par ruski-bjeloruski.

5. Apertium

Apertium je platforma za strojno prevođenje koja je besplatna, „slobodna” i otvorenoga kôda, prvotno namijenjena za povezane jezične parove, kao što su CA, ES, GA, PT, OC i FR, a odnedavno je proširena i na obradu različitijih jezičnih parova (npr. engleski-katalonski). Najnoviji popis raspoloživih jezičnih parova možete naći na web stranicama.

Platforma nudi sljedeće:

  • modul za strojno prevođenje neovisan o jezicima,

  • alate za upravljanje lingvističkim podacima potrebnim za izgradnju sustava strojnoga prevođenja za određeni jezični par,

  • lingvističke podatke za sve veći broj jezičnih parova.

Apertium koristi tzv. modul plitkoga prijenosa za strojno prevođenje, koji uneseni tekst obrađuje u etapama, kao na montažnoj traci: uklanjanje oblikovanja, morfološka analiza, automatsko određivanje vrsta riječi, plitki strukturalni prijenos, leksički prijenos, morfološko generiranje i vraćanje oblikovanja.

Apertium je moguće koristiti za izgradnju sustava za strojno prevođenje raznih jezičnih parova, zbog čega rabi formate na temelju norme jednostavnoga XML-a za kodiranje potrebnih lingvističkih podataka (bilo ručnim putem ili pretvaranjem postojećih podataka), koji se popratnim alatima pretaču u formate za brzi rad modula.

6. MyMemory (strojno prevođenje)

MyMemory je usluga podešena tako da dopušta najviše 100 zahtjeva dnevno. Dostavljanjem adrese e-pošte omogućava se korištenje 1000 zahtjeva dnevno.

Adresu možete dostaviti na barem tri načina:

  • u datoteci OmegaT.l4J.ini (samo za sustav Windows) pronađite sljedeći redak:

    # MyMemory email

    i unesite sljedeće izmjene:

    MyMemory moja@e-adresa.com

  • pri pokretanju programa OmegaT naredbenim retkom dodajte sljedeće:

    -Dmymemory.api.email=moja@e-adresa.com

  • u Kaptain launcher (samo za sustav Linux) upišite adresu u odgovarajuće polje na kartici mrežnih servisa („Online Services”)

MyMemory nudi i prijevode stvorene ljudskom rukom, čiji su autori profesionalni prevoditelji, pružatelji jezičnih usluga i korisnici, kao i one iz višejezičnih sadržaja s weba. Za korištenje tih prijevoda morate poslati svoju izvorišnu datoteku web stranicama servisa radi izrade datoteke TMX. Potom tu datoteku TMX morate spremiti u mapu projekta u okviru programa OmegaT (/tm/ ili /tm/auto/).

MyMemory također nudi i mogućnost upravljanja privatnim prijevodnim memorijama. Napomena: OmegaT OmegaT nema mogućnost dinamičke interakcije s njima, tj. morate ručnim putem izvoziti/uvoziti datoteke TMX.

7. Microsoft prevoditelj

Pristupne podatke za servis MS prevoditelj možete dobiti na sljedeći način

  1. Prijavite se na Microsoft Azure Marketplace: http://datamarket.azure.com/

    Ako nemate račun za Azure Marketplace, morate se registrirati da biste ga dobili.

  2. Pritisnite poveznicu My Account na vrhu stranice.

  3. Negdje pri dnu vidjet ćete unose i vrijednosti za sljedeće:

    • primarni ključ računa (Primary Account Key; odgovara parametru naredbenoga retka microsoft.api.client_secret)

    • oznaku klijenta (Customer ID; odgovara parametru naredbenoga retka microsoft.api.client_id)

Korištenje usluge MS prevoditelj u programu OmegaT možete aktivirati ili unošenjem izmjena u njegove postavke pokretanja ili naredbenim retkom, o čemu više možete doznati u poglavlju Instaliranje i pokretanje.

8. Yandex Translate

Da biste mogli koristiti Yandex Translate u programu OmegaT, trebate od Yandexa dobiti ključ API-ja.

Dobiveni ključ API-ja treba učitati u OmegaT pri pokretanju, i to putem parametra naredbenoga retka yandex.api.key. To možete obaviti unošenjem izmjena u postavke pokretanja programa OmegaT ili naredbenim retkom, o čemu više možete doznati u poglavlju Instaliranje i pokretanje.

9. Strojno prevođenje – rješavanje problema

Ako se u oknu strojnoga prijevoda ne prikazuje nijedan prijedlog, provjerite sljedeće:

  • Jeste li spojeni na internet? Da biste mogli koristiti alate za strojno prevođenje, morate biti spojeni na internet.

  • Koji vam jezični par treba? Provjerite je li taj jezični par raspoloživ.

  • Google prevoditelj ne funkcionira: jeste li aktivirali uslugu Translate API? Imajte na umu da usluga Google prevoditelj nije besplatna, o čemu više pojedinosti možete naći u poglavlju Instaliranje i pokretanje (parametri izvođenja).

  • Poruka „Google Translate returned HTTP response code: 403 ...”: provjerite je li ključ od 38 znakova pravilno upisan u datoteku pinfo.list. Provjerite je li aktivirana usluga Translate API.

  • Google prevoditelj ne funkcionira kako treba, premda je ključ API-ja za Google pravilno upisan. Provjerite u Mogućnosti > Strojni prijevod je li označen Google prevoditelj v2.

  • Google prevoditelj v2 šalje poruku o neispravnome zahtjevu („Bad request”): provjerite izvorišni i odredišni jezik projekta. Takve odzivne poruke znače da jezici nisu pravilno određeni.