Liite B. Sanastot

1. Käyttö
2. Tiedostomuoto
3. Sanastojen luominen
4. Ensisijainen sanasto
5. Tavallisia sanasto-ongelmia

Sanastot ovat käyttäjän itse luomia tiedostoja, jotka auttavat OmegaT-käännöstöissä. Sanastot on päivitettävä käsin.

OmegaT-projektissa voi käyttää yhtä tai useampaa sanastotiedostoa. Sanaston termit, joita käytetään aktiivisessa segmentissä, näkyvät automaattisesti Sanaston esikatselu ssa.

Voit määritellä sanaston sijainnin ja nimen kohdassa Projektin ominaisuudet. Sanaston tiedostopäätteen on oltava .txt tai .utf8. Puuttuva pääte lisätään automaattisesti. Tiedoston on oltava /glossary-kansiossa, mutta voit käyttää myös alikansiota (esim. glossary/sub/glossary.txt). Kun asetat sanastotiedostokansiota, erillistä sanastotiedostoa ei vielä tarvita. Tiedosto luodaan (tarvittaessa) automaattisesti, kun lisäät sanastoon uuden termin. Jos tiedosto on jo olemassa, sen tiedostomuotoa tai merkistökoodausta ei tarkisteta. Uudet termit ja niiden käännökset lisätään aina sarkainmerkeillä erotettuna, ja tiedoston merkistökoodauksena on UTF-8. Tiedoston jo olemassa olevaa sisältöä ei käsitellä tai muuteta, joten mahdollisten tiedostovahinkojen määrä pysyy rajallisena.

1. Käyttö

Jos sinulla on jo sanastotiedosto, jota haluat käyttää, luo OmegaT-käännösprojekti ja vie sanastotiedosto projektin /glossary-kansioon. Kun projekti avataan, OmegaT tunnistaa automaattisesti tässä kansiossa olevat sanastotiedostot. Jos aktiivisessa segmentissä on termejä, joita OmegaT löytää myös sanastotiedosto(i)sta, termit näkyvät sanastoruudussa:

Kuva B.1. Sanastoruutu

Sanastoruutu

Ensin on lähdekielinen termi, sitten yhtäläisyysmerkki, jo lopuksi termin käännös/käännökset. Sanaston termiin voi liittyä kommentti. Sanastotoiminto löytää sanastosta ainoastaan tarkkoja osumia. Se ei siis löydä taivutettuja muotoja tms. Käännöksen aikana voit lisätä sanastotiedostoon/-tiedostoihin uusia termejä esimerkiksi tekstieditorilla. Ohjelma ei havaitse uusimpia lisättyjä termejä heti, kun tekstitiedoston muutokset on tallennettu.

Lähdekielinen termi voi koostua useista sanoista. Tässä esimerkki siitä:

Kuva B.2. Esimerkki sanaston monisanaisista termeistä

Esimerkki sanaston monisanaisista termeistä

Alleviivattu termi "pop-up menu" on sanastoruudussa "pojavni menu". Maalaa termi sanastoruudussa ja napsauta hiiren kakkospainikkeella, niin termi siirtyy kohdistimen kohdalle kohdesegmenttiin.[1]

2. Tiedostomuoto

Sanastotiedostot ovat yksinkertaisia vain teksti -tiedostoja. Niissä on kolme saraketta, jotka on erotettu toisistaan sarkaimilla. Ensimmäisessä sarakkeessa on lähdekielinen ja toisessa kohdekielinen termi. Kolmas sarake on lisätietoja varten. Kohdekielinen sarake voi olla tyhjä. Sanaston termi voi siis koostua pelkästään lähdekielisestä termistä ja kommentista.

Sanastojen merkistökoodaus määritetään automaattisesti. Merkistökoodauksen täytyy tietysti sopia molemmille tiedoston kielille, joten on suositeltavaa käyttää Unicode-merkistökoodausta.

Toinen tuettu tiedostomuoto on CSV. Tässä tiedostomuodossa erotinmerkkinä käytetään pilkkua: lähdekielinen termi, kohdekielinen termi. Myös kommentit erotetaan pilkulla. Merkkijonoissa voidaan käyttää lainausmerkkejä (" "), jolloin merkkijonossa voi olla pilkku:

"tämä on lähdekielinen termi, jossa käytetään pilkkua","c'est un terme, qui contient une virgule"

Vain lukukelpoisen sanastotiedoston muodoksi sopii vain teksti -muoto sekä termitiedostomuoto TBX. .tbx-tiedoston on oltava /glossary-kansiossa, mutta voit käyttää myös alikansiota (esim. glossary/sub/MyGlossary.tbx).

TBX - Term Base eXchange - on avoin XML:ään perustuva tiedostostandardi, jonka avulla voidaan siirtää jäsenneltyjä terminologiatietoja. Lokalisointiteollisuuden järjestö LISA ja kansainvälinen standardisoimisjärjestö ISO ovat hyväksyneet TBX-muodon kansainväliseksi standardiksi. Jos käytössäsi on terminologiajärjestelmä, on hyvin mahdollista, että se voi jakaa terminologiatietoja TBX-muodossa. Microsoft Terminology Collection on ladattavissa lähes 100 eri kielellä. Sitä voi käyttää tietotekniikkasanaston peruskivenä.

Huom.: MultiTermin .tbx-tuotos ei vaikuta luotettavalta (marraskuu 2013). On parempi käyttää MultiTermin tab-tuotosta.

3. Sanastojen luominen

Projektin asetuksissa voi nimetä kirjoituskelpoisen sanastotiedoston (ks. tämän luvun alkuosa). Lisää uusi termi napsauttamalla sanastoruudussa hiiren kakkospainikkeella tai painamalla Ctrl+vaihto+G. Tämä avaa valintaikkunan, johon voit kirjoittaa lähde- ja kohdekielisen termin sekä mahdolliset kommentit:

Sanastotiedostojen sisältö pysyy ohjelman muistissa. Tiedostot ladataan uudelleen, kun projekti avataan tai ladataan uudelleen. Sanastotiedoston päivittäminen on siis melko helppoa: Paina Ctrl+vaihto+G, kirjoita uusi termi, sen käännös ja mahdolliset kommentit (siirry kentästä toiseen painamalla sarkainnäppäintä) ja lopuksi tallenna tiedosto. Sanastoruudun sisältö päivittyy tämän mukaisesti.

Voit asettaa kirjoituskelpoisen sanastotiedoston sijainnin kohdassa Projekti > Ominaisuudet… Tuetut tiedostomuodot ovat TXT ja UTF8.

Huom.: On tietysti muitakin tapoja laatia yksinkertaisia tiedostoja, joiden sisältämät tiedot on erotettu toisistaan sarkaimilla. Kaikki ohjelmat, jotka tukevat UTF-8- tai UTF-16-merkistökoodausta ja jotka voivat näyttää välilyöntimerkit (jotta et unohda vaadittua TAB-merkkiä) sopivat tähän: Voit käyttää Windowsin Notepad++-ohjelmaa, Linuxin GEdit-ohjelmaa tai vaikkapa taulukkolaskentaohjelmaa.

4. Ensisijainen sanasto

Ensisijaisen sanaston oletus on /glossary/glossary.txt. Ensisijaisesta sanastosta löydetyt tulokset näkyvät ensimmäisinä sanastoruudussa ja TransTips-ruudussa.

Koska ensisijaisen sanaston ja muiden sanastojen termit voivat mennä sekaisin, ensisijaisen sanaston termit on lihavoitu.

5. Tavallisia sanasto-ongelmia

Ongelma: Sanastotermejä ei näy. – Mahdollisia syitä:

  • Sanastotiedostojen kansiossa ei ole sanastotiedostoa.

  • Sanastokansio on tyhjä.

  • Termejä ei ole erotettu sarkaimella.

  • Sanastotiedoston tiedostopääte ei ole oikea (muu kuin .tab, .utf8 tai .txt).

  • Sanaston termi ja käännettävän asiakirjan lähdekielinen termi eivät ole TÄYSIN samanlaisia (sana esim. taivutettu monikkoon).

  • Sanastotiedoston merkistökoodaus on väärä.

  • Aktiivisessa segmentissä ei ole termejä, jotka vastaavat sanaston termejä.

  • Yksi tai useampi yllä mainituista ongelmista on korjattu, mutta projektia ei ole ladattu uudelleen.

Ongelma: Jotkin merkit näkyvät väärin sanastoruudussa

  • …mutta samat merkit näkyvät oikein Editori-ruudussa: tiedostopääte ja tiedostokoodaus eroavat toisistaan.



[1] Huomaa, että tässä on vain puolet (tai sitäkin vähemmän) totuudesta, sillä kohdekieli (sloveeni) käyttää taivutettuja sanamuotoja. Lisätty termi "pojavni menu" on nominatiivissa mutta se on muutettava lokatiivimuotoon "pojavnem meniju". Siksi voi olla nopeampaa näpyttää termi heti oikein välittämättä sanastosta ja sen pikanäppäimistä.