Mjetet e memories së përkthimit punojnë me njësitë e tekstuale të quajtura segmente. Ka shumë mënyra për te segmentuar një tekst.
OmegaT së pari e përgatit tekstin për segmentimin në nivel strukture. Gjatë këtij procesi është vetëm struktura e skedarit burimor që përdoret për të prodhuar segmentet. Për shembull, skedarët tekstual mund të segmentohen thyes rreshtash, rreshta bosh, ose nuk mund të segmentohet fare në nivelin e strukturës. Skedarët me formatim (dokumentet OpenOffice.org, OpenDocument, XHTML dhe HTML) segmentohen në tagje nivelesh blloku (paragraf).
Atributet e objekteve të përkthyeshme (në skedarët XHTML ose HTML) janë gjithashtu të përftuara për tu ndarë në segmente.
OmegaT mund t'i segmentoj edhe sipas fjalive. Segmentimi i fjalive bëhet vetëm pas segmentimit strukturor. Segmentet e krijuara gjatë procesit tjetër fatkeqësisht nuk mund të ndryshohen (të ndahen ose të bashkohen) gjatë përkthimit. Ky është kufizimi i OmegaT që ne e njohim.
Nëse nuk jeni të kënaqur me segmentimin ju ose duhet ta ndryshoni prej nga jashtë skedarin burimor dhe/ose të ndryshoni rregullat e segmentimit. Pasi të keni bërë këtë ju duhet ta ringarkoni projektin që ndryshimet tuaja të merren parasysh.
Pasi që OmegaT të ketë segmentuar skedarët burimor në njësitë logjike, për skedarët e formatuar rëndom korrespondon me paragrafët, do të segmentoj ende këto blloqe në fjali nëse ju nuk e fikni Segmentimin e Fjalive. Duke folur në përgjithësi, OmegaT mund të segmentoj blloqet logjike të skedarit burimor në çfarëdo segmente që ju i caktoni. Sidoqoftë është rëndomtë OmegaT segmenton në fjali, ne e quajmë segmentim fjalie .
Segmentimi i fjalive është ndërtuar duke pasur në mend standardin Segmentation Rules eXchange (SRX), megjithatë shkrimit të tanishëm, OmegaT as nuk i përkrah të gjitha veçoritë e SRX, as nuk është në gjendje të eksportoj/importoj rregulla të përcaktuara në formatin SRX. Për më tepër nëse e dini se si punon SRX, ju tani dini se si punon OmegaT, pasi që ato janë pak a shumë të ngjashme.
Ka dy lloje të rregullave të mundshme.
Shembull i rregullit të thyerjes: "A pati kuptim? Nuk jam i sigurt." mund të segmentohet si dy
fjali pas "?
". Duhet të
ketë një rregull thyerje për "?
".
Shembull rregulli të
përjashtimit: "Kush i frikësohet znj. Woolf?" nuk mund të
segmentohet pas ".
". Duhet të ketë një rregull përjashtimi për "znj.
".
Rregullat e paracaktuar të thyerjes duhet të jenë të mjaftueshme për shumicën e gjuhëve Evropiane dhe Japoneze, por ne rekomandojmë të përcaktoni më tepër rregulla përjashtimi për gjuhën që ju do të përktheni nga, pasi është e qartë e pamundshme të përcaktohen të gjitha përjashtimet e mundshme për të gjitha gjuhët e mundshme.
Që të vëni rregulla,përzgjidh nga menyja kryesore Opsionet -> Segmentimi.... Vini re që nëse ju ndërroni opsionet e segmentimit përgjatë çfarëdo projekti që është i hapur, ju duhet ta ringarkoni projektin që të ndikojnë ndryshimet në rregulla.
Të gjitha bashkësitë e rregullat e segmentimit me një Model Të Gjuhës janë të zbatuara në renditje të prioritetit, kështu që për një gjuhë të veçantë do të jenë më të larta të rëndomtat.
Për shembull, rregullat për Frëngjishten Kanadeze (FR-CA) duhet të jenë më të larta se rregullat për Frëngjishten (FR.*), dhe më të larta se sa për të rëndomtat. Pastaj gjatë përkthimit nga Frëngjishtja Kanadeze projekti i juaj do të përdor rregullat e përcaktuara për këtë gjuhë, rregullat për frëngjisht, dhe rregullat e Rëndomta në një renditje të përpiktë.
Që të shtoni një bashkësi boshe të rregullave, shtyp Shto në gjysmën e sipërme të dialogut. Një rresht bosh do të paraqitet në fund të tabelës. Ndërro emrin e bashkësisë së rregullave dhe modelin e gjuhës. Sintaksa e modeleve të gjuhës konform sintaksës së shprehjeve regulare. Shiko seksionin Përmbledhje e shkurtë e konstrukteve shprehje-regulare në vijim.
Nëse bashkësia jote e rregullave manipulon një çift gjuhë-shtet, ne ju këshillojmë ta kaloni atë në krye duke përdorur pullën Lëviz lart.
Që të redaktoni një bashkësi të rregullave, thjeshtë shtyp në të në tabelë, bashkësia e rregullave do të paraqitet në gjysmën e poshtme të dritares.
Kutikontrolla /Përjashtim përcaktojnë nëse ajo është rregull thyerje (kutikontrolla e vënë) ose një rregull përjashtimi (kutikontrolla e pa vënë). Dy shprehjet regulare Përpara dhe Pas përcaktojnë se çfarë duhet që para dhe pas që ajo të kualifikohet për një rregull përjashtimi ose një rregull thyerje.
Procesi i segmentimit mund të thjeshtohet si në vijim. Imagjino kursorin duke lëvizur nga pas shifrës së parë deri te shifra e fundit e tekstit. Për secilën pozitë të kursorit zbatohet secila rregull në renditjen e dhënë dhe provo duke zbatuar modelin Përpara në tërë tekstin që është në të majtë të kursorit dhe modeli Prapa në tekstin në të djathtë që mund ta preken nga kursori.
Nëse zbatimi i disa rregullave është i suksesshëm, për shembull rregullat e përjashtimit ne nuk bëjmë asgjë por ndalim shqyrtimin e më tepër rregullave dhe marrim tekstin në të majtë si segment në vete, për secilën pozitë të kursorit në tekst.
Tentimi: që të segmentohet pas pikë ('.
') dhe para një hapësire
Përpara: \.
Prapa: \s
Shënim: "\.
" nënkupton karakterin ".
"
"\s
" nënkupton
sado karaktere të hapësirës boshe
Tentimi: që të mos segmentohet pas "Mr.
Përpara: Mr\.
Prapa: \s
Shënim: Mos
harroni që ta lëni kutinë e rregullit të pacaktuar
Tentimi: që të segmentohet pas "。" (pikës Japoneze)
Përpara: 。 Prapa: (bosh)
Shënim: Ju mund
ta lëni ndonjë fushë boshe
Rregullat e segmentimit tani për tani paraqiten përmes shprehjeve regulare. Kjo lejon fleksibilitetin më të madh në përcaktimin e rregullave dhe konforme me SRX.
Këtë nuk konstruktet e vetme që OmegaT mund t'i përdor në rregullat e segmentimit, por ato përdoren më së shumti. OmegaT përkrah të gjitha veçoritë e shprehjeve regulare të përshkruara në standardin SRX.
Konstrukti |
Përputhjet |
Flamujt |
|
(?i) |
Aftëson përputhjen e ndjeshme me rastin e shkronjave (rëndom, modeli është i ndjeshëm në shkronja). |
Karakteret |
|
x |
x, përveç këtyre në vijim... |
\uhhhh |
Karakter me vlerë heksadecimale 0xhhhh |
\t |
Karakteri tab ('\u0009') |
\n |
Karakteri rreshti ri (line feed) ('\u000A') |
\r |
Karakteri karrocë-kthimi ('\u000D') |
Citatet |
|
\ |
Asgjë, por
citon karakterin në vijim. Kjo kërkohet nëse ju doni të jepni metakarakteret |
\\ |
Për shembull, ky është një karakter prapathyes |
\Q |
Asgjë, por citon të gjitha karakteret deri te \E |
\E |
Asgjë, por mbaron citimin e filluar nga \Q |
Klasat e karaktereve |
|
[abc] |
a, b, ose c (klasë e thjeshtë) |
[^abc] |
Të gjitha karakteret përveç a, b, ose c (negacion) |
[a-zA-Z] |
A deri në z ose A deri në Z, inkluziv (rang) |
Klase e paracaktuara të karaktereve |
|
. |
Çdo karakter (përveç përfundues të rreshtave) |
\d |
Shifër: [0-9] |
\D |
Një jo shifër: [^0-9] |
\s |
Një karakter hapësirë boshe: [ \t\n\x0B\f\r] |
\S |
Një karakter jo hapësirë boshe: [^\s] |
\w |
Karakter fjalë: [a-zA-Z_0-9] |
\W |
Karakter jo fjalë: [^\w] |
Përputhësit kufitar |
|
^ |
Fillimi i rreshtit |
$ |
Fundi i rreshtit |
\b |
Kufi fjalësh |
\B |
Kufi jo-fjalësh |
Kuantifikatorët lakmitar |
|
Këto do të
përputhin sa më shumë që munden. Për shembull, |
|
X? |
X, njëherë ose asnjëherë |
X* |
X, zero ose më tepër herë |
X+ |
X, një ose më tepër herë |
Kuantifikatorët jo-lakmues |
|
Këto do të
përputhin sa më pak që ato munden. Për shembull, |
|
X?? |
X, njëherë ose asnjëherë |
X*? |
X, zero ose më tepër herë |
X+? |
X, një ose më tepër herë |
Operatorët logjik |
|
XY |
X ndjekur nga Y |
X|Y |
Ose X ose Y |
(XY) |
XY si një grup i veçantë |