Segmentimi i Burimit

Përmbajtja

1. Bazat e Segmentimit
2. Segmentimi i Fjalive

2.1. Për Rregullat
2.2. Vënia e Rregullave

2.2.1. Bashkësitë e Rregullave
2.2.2. Shembuj të thjeshtë

2.3. Shprehjet Regulare që përdoren në rregullat e segmentimit

2.3.1. Përmbledhje e shkurtë e konstrukteve shprehje-regulare

Bazat e Segmentimit

Mjetet e memories së përkthimit punojnë me njësitë e tekstuale të quajtura segmente. Ka shumë mënyra për te segmentuar një tekst.

OmegaT së pari e përgatit tekstin për segmentimin në nivel strukture. Gjatë këtij procesi është vetëm struktura e skedarit burimor që përdoret për të prodhuar segmentet. Për shembull, skedarët tekstual mund të segmentohen thyes rreshtash, rreshta bosh, ose nuk mund të segmentohet fare në nivelin e strukturës. Skedarët me formatim (dokumentet OpenOffice.org, OpenDocument, XHTML dhe HTML) segmentohen në tagje nivelesh blloku (paragraf).

Atributet e objekteve të përkthyeshme (në skedarët XHTML ose HTML) janë gjithashtu të përftuara për tu ndarë në segmente.

OmegaT mund t'i segmentoj edhe sipas fjalive. Segmentimi i fjalive bëhet vetëm pas segmentimit strukturor. Segmentet e krijuara gjatë procesit tjetër fatkeqësisht nuk mund të ndryshohen (të ndahen ose të bashkohen) gjatë përkthimit. Ky është kufizimi i OmegaT që ne e njohim.

Nëse nuk jeni të kënaqur me segmentimin ju ose duhet ta ndryshoni prej nga jashtë skedarin burimor dhe/ose të ndryshoni rregullat e segmentimit. Pasi të keni bërë këtë ju duhet ta ringarkoni projektin që ndryshimet tuaja të merren parasysh.

Segmentimi i fjalive

Pasi që OmegaT të ketë segmentuar skedarët burimor në njësitë logjike, për skedarët e formatuar rëndom korrespondon me paragrafët, do të segmentoj ende këto blloqe në fjali nëse ju nuk e fikni Segmentimin e Fjalive. Duke folur në përgjithësi, OmegaT mund të segmentoj blloqet logjike të skedarit burimor në çfarëdo segmente që ju i caktoni. Sidoqoftë është rëndomtë OmegaT segmenton në fjali, ne e quajmë segmentim fjalie .

Segmentimi i fjalive është ndërtuar duke pasur në mend standardin Segmentation Rules eXchange (SRX), megjithatë shkrimit të tanishëm, OmegaT as nuk i përkrah të gjitha veçoritë e SRX, as nuk është në gjendje të eksportoj/importoj rregulla të përcaktuara në formatin SRX. Për më tepër nëse e dini se si punon SRX, ju tani dini se si punon OmegaT, pasi që ato janë pak a shumë të ngjashme.

Për rregullat

Ka dy lloje të rregullave të mundshme.

Rregulla të thyerjes që e thyejnë tekstin në segmente.
Rregulla të përjashtimi që përcaktojnë cilat pjesë të tekstit nuk duhet të ndahet nga të tjerat.

Shembull i rregullit të thyerjes: "A pati kuptim? Nuk jam i sigurt." mund të segmentohet si dy fjali pas "?". Duhet të ketë një rregull thyerje për "?".

Shembull rregulli të përjashtimit: "Kush i frikësohet znj. Woolf?" nuk mund të segmentohet pas ".". Duhet të ketë një rregull përjashtimi për "znj.".

Rregullat e paracaktuar të thyerjes duhet të jenë të mjaftueshme për shumicën e gjuhëve Evropiane dhe Japoneze, por ne rekomandojmë të përcaktoni më tepër rregulla përjashtimi për gjuhën që ju do të përktheni nga, pasi është e qartë e pamundshme të përcaktohen të gjitha përjashtimet e mundshme për të gjitha gjuhët e mundshme.

Vënia e Rregullave

Që të vëni rregulla,përzgjidh nga menyja kryesore Opsionet -> Segmentimi.... Vini re që nëse ju ndërroni opsionet e segmentimit përgjatë çfarëdo projekti që është i hapur, ju duhet ta ringarkoni projektin që të ndikojnë ndryshimet në rregulla.

Bashkësitë e Rregullave

Të gjitha bashkësitë e rregullat e segmentimit me një Model Të Gjuhës janë të zbatuara në renditje të prioritetit, kështu që për një gjuhë të veçantë do të jenë më të larta të rëndomtat.

Për shembull, rregullat për Frëngjishten Kanadeze (FR-CA) duhet të jenë më të larta se rregullat për Frëngjishten (FR.*), dhe më të larta se sa për të rëndomtat. Pastaj gjatë përkthimit nga Frëngjishtja Kanadeze projekti i juaj do të përdor rregullat e përcaktuara për këtë gjuhë, rregullat për frëngjisht, dhe rregullat e Rëndomta në një renditje të përpiktë.

Që të shtoni një bashkësi boshe të rregullave, shtyp Shto në gjysmën e sipërme të dialogut. Një rresht bosh do të paraqitet në fund të tabelës. Ndërro emrin e bashkësisë së rregullave dhe modelin e gjuhës. Sintaksa e modeleve të gjuhës konform sintaksës së shprehjeve regulare. Shiko seksionin Përmbledhje e shkurtë e konstrukteve shprehje-regulare në vijim.

Nëse bashkësia jote e rregullave manipulon një çift gjuhë-shtet, ne ju këshillojmë ta kaloni atë në krye duke përdorur pullën Lëviz lart.

Që të redaktoni një bashkësi të rregullave, thjeshtë shtyp në të në tabelë, bashkësia e rregullave do të paraqitet në gjysmën e poshtme të dritares.

Kutikontrolla /Përjashtim përcaktojnë nëse ajo është rregull thyerje (kutikontrolla e vënë) ose një rregull përjashtimi (kutikontrolla e pa vënë). Dy shprehjet regulare Përpara dhe Pas përcaktojnë se çfarë duhet që para dhe pas që ajo të kualifikohet për një rregull përjashtimi ose një rregull thyerje.

Procesi i segmentimit mund të thjeshtohet si në vijim. Imagjino kursorin duke lëvizur nga pas shifrës së parë deri te shifra e fundit e tekstit. Për secilën pozitë të kursorit zbatohet secila rregull në renditjen e dhënë dhe provo duke zbatuar modelin Përpara në tërë tekstin që është në të majtë të kursorit dhe modeli Prapa në tekstin në të djathtë që mund ta preken nga kursori.

Nëse zbatimi i disa rregullave është i suksesshëm, për shembull rregullat e përjashtimit ne nuk bëjmë asgjë por ndalim shqyrtimin e më tepër rregullave dhe marrim tekstin në të majtë si segment në vete, për secilën pozitë të kursorit në tekst.

Shembull të thjeshtë

Tentimi: që të segmentohet pas pikë ('.') dhe para një hapësire

Përpara: \. Prapa: \s
Shënim: "\." nënkupton karakterin "."
"\s" nënkupton sado karaktere të hapësirës boshe

Tentimi: që të mos segmentohet pas "Mr. "

Përpara: Mr\. Prapa: \s
Shënim: Mos harroni që ta lëni kutinë e rregullit të pacaktuar

Tentimi: që të segmentohet pas "。" (pikës Japoneze)

Përpara: 。 Prapa: (bosh)
Shënim: Ju mund ta lëni ndonjë fushë boshe

Shprehjet Regulare që përdoren në rregullat e segmentimit

Rregullat e segmentimit tani për tani paraqiten përmes shprehjeve regulare. Kjo lejon fleksibilitetin më të madh në përcaktimin e rregullave dhe konforme me SRX.

Një përmbledhje e shkurtë e konstrukteve të shprehjeve regulare

Këtë nuk konstruktet e vetme që OmegaT mund t'i përdor në rregullat e segmentimit, por ato përdoren më së shumti. OmegaT përkrah të gjitha veçoritë e shprehjeve regulare të përshkruara në standardin SRX.

Konstrukti	Përputhjet

Flamujt
`(?i)`	Aftëson përputhjen e ndjeshme me rastin e shkronjave (rëndom, modeli është i ndjeshëm në shkronja).

Karakteret
x	x, përveç këtyre në vijim...
`\u`hhhh	Karakter me vlerë heksadecimale `0x`hhhh
`\t`	Karakteri tab (`'\u0009'`)
`\n`	Karakteri rreshti ri (line feed) (`'\u000A'`)
`\r`	Karakteri karrocë-kthimi (`'\u000D'`)

Citatet
`\`	Asgjë, por citon karakterin në vijim. Kjo kërkohet nëse ju doni të jepni metakarakteret `!$()*+.<>?[\]^{\|}` që të përputhe si me vet-veten.
`\\`	Për shembull, ky është një karakter prapathyes
`\Q`	Asgjë, por citon të gjitha karakteret deri te `\E`
`\E`	Asgjë, por mbaron citimin e filluar nga `\Q`

Klasat e karaktereve
`[abc]`	`a`, `b`, ose `c` (klasë e thjeshtë)
`[^abc]`	Të gjitha karakteret përveç `a`, `b`, ose `c` (negacion)
`[a-zA-Z]`	`A` deri në `z` ose `A` deri në `Z`, inkluziv (rang)

Klase e paracaktuara të karaktereve
`.`	Çdo karakter (përveç përfundues të rreshtave)
`\d`	Shifër: `[0-9]`
`\D`	Një jo shifër: `[^0-9]`
`\s`	Një karakter hapësirë boshe: `[ \t\n\x0B\f\r]`
`\S`	Një karakter jo hapësirë boshe: `[^\s]`
`\w`	Karakter fjalë: `[a-zA-Z_0-9]`
`\W`	Karakter jo fjalë: `[^\w]`

Përputhësit kufitar
`^`	Fillimi i rreshtit
`$`	Fundi i rreshtit
`\b`	Kufi fjalësh
`\B`	Kufi jo-fjalësh

Kuantifikatorët lakmitar
Këto do të përputhin sa më shumë që munden. Për shembull, `a+` do të përputh `aaa` në `aaabbb`
X`?`	X, njëherë ose asnjëherë
X`*`	X, zero ose më tepër herë
X`+`	X, një ose më tepër herë

Kuantifikatorët jo-lakmues
Këto do të përputhin sa më pak që ato munden. Për shembull, `a+?` do të përputh të parë në `a` in `aaabbb`
X`??`	X, njëherë ose asnjëherë
X`*?`	X, zero ose më tepër herë
X`+?`	X, një ose më tepër herë

Operatorët logjik
XY	X ndjekur nga Y
X`\|`Y	Ose X ose Y
`(`XY`)`	XY si një grup i veçantë

Njoftimet Legale