Magyar Generatív Történeti Szintaxis

Kezdőlap » Korpusz

A korpusz

  1. Célok
  2. Felépítés
  3. Betűhű szöveg
  4. Normalizálás
  5. Morfológiai elemzés
  6. Metaadatok

1. Célok

A célunk egy olyan annotált korpusz létrehozása volt, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) és néhány középmagyar kori (1526–1772) szövegemléket, és amely nyelvészetileg releváns kérdésekre tud választ szolgáltatni.

Szövegemlék alatt az összefüggő mondatokat tartalmazó nyelvemlékeket értjük; az ún. szórványemlékekkel, amelyekben csak sporadikusan fordulnak elő magyar szavak vagy nevek, jelen projektben nem foglalkoztunk. Így a korpusz 47 ómagyar kódexet, 24 rövidebb ómagyar szövegemléket, 244 misszilist és 5 középmagyar kori bibliafordítást foglal magában, összesen több mint 3,2 millió szövegszót.

2. Felépítés

A korpusz felépítése, vagyis az egyes szövegszavakhoz tartozó annotációs szintek párhuzamosan alakulnak a szövegfeldolgozottsági szintekkel:

(1)kiadott kódex szkennelve
automatikus OCR
(2)nyers OCR-kimenet
kézi javítás, kódolás
(3)betűhű elektronikus forma
kézi normalizálás
(4)normalizált forma
automatikus morfológiai elemzés
(5)szótövesített és morfológiailag elemzett forma
félautomatikus egyértelműsítés
(6)egyértelműsített korpusz

Ahhoz, hogy a korpuszban a nyelvi jelenségek kereshetők legyenek, vagyis az adatbázis használható segédeszköze legyen az elméleti nyelvészeti és nyelvtörténeti kutatásoknak, a releváns információkat elektronikusan előhívható és interpretálható módon kell tárolni. A kifinomult, nyelvészetileg releváns lekérdezések sok esetben különféle nyelvi szinteken megjelenő információra hivatkoznak. Hogy ezek mind elérhetőek legyenek, adatbázisunk párhuzamosan tartalmazza az egyes szövegfeldolgozottsági szinteknek megfelelő nyelvi adatokat. Vagyis az egyes szövegszavakhoz a következő adatok tartoznak:

  • betűhű forma = (3)
  • normalizált alak = (4)
  • szótő – egyértelműsített morfológiai elemzés (6) alapján
  • elemzés – egyértelműsített morfológiai elemzés (6) alapján

Minden ómagyar szöveg betűhű alakja megtalálható a korpuszban, ezek egy részét normalizáltuk, amelyek közül néhány szöveg teljes morfológiai elemzése is elkészült.

3. Betűhű szöveg

A betűhű szöveg elkészítésekor nem a kódexek kézzel írott változatát, hanem az általunk használt átirat szerkesztőjének konvencióit követtük, vagyis nem törekedtünk tökéletes paleográfiai pontosságra. Ha a kiadó nem tett különbséget pl. az ſ és az s karakterek között, akkor elfogadjuk a nyelvtörténészi döntést, és mi sem teszünk. Ha viszont a szöveg közreadója megkülönbözteti az összes mellékjeles karaktert, akkor mi azt követjük. Ahol mégis eltérünk a szerkesztő közlésétől, azt mindig külön jelezzük.

A betűhű szövegváltozat előállításakor a korabeli írásjeleket, egybe- és különírást, a mondat- és tulajdonnévkezdő kis- és nagybetűket megtartottuk úgy, ahogy a kódexkiadásban szerepelnek. Az eredeti kódexbeli színezéseket, betűvastagításokat és kiemeléseket viszont nem őriztük meg.

Az oldaltörések jelölésére használt egyes (|) vagy dupla virgulákat (||) nem jelöljük, mivel minket ilyen könyvnyomtatásból fakadó kényszermegoldások nem kötnek.

3.1. Karakterkódolás

A szabványosság előnyei miatt a teljes korpuszt UTF-8 kódolású sztenderd Unicode-karakterekkel tároljuk, és jelenítjük meg. A Unicode egyik nagy előnye, hogy az alapkaraktereket és a diakritikus jeleket külön egységekként (külön kóddal) tárolja, és lehetőséget nyújt ezek szabad összeépítésére. A hozzáadott ékezetek halmozhatók is, így ezen a módon a kódexek különleges karaktereinek jelentős részét szabványos kódolással tudjuk reprezentálni. Minden olyan mellékjeles karaktert, amiből van eleve összekombinált sztenderd Unicode-karakter, abban a formájában használunk. Összeépített karaktert csak akkor használunk, ha nincs más lehetőség. Vagyis pl. az é karaktert nem az e (U+0065 latin small letter e) és az ékezet (U+0301 combining acute accent) kombinációjából hozzuk létre, hanem az U+00E9 latin small letter e with acute karaktert használjuk.

Bizonyos középkorban használt karaktereket a Medieval Unicode Font Initiative (MUFI) ajánlására elfogadott a Unicode Consortium, és az 5.1-es verziótól már sztenderd Unicode-karakterekként találhatók meg a kódtáblában. Ahhoz, hogy ezeket a karaktereket is rendesen megjelenítsék az alkalmazások, ajánlatos a Junicode fontkészlet telepítése.

3.2. Hangjelölés-egységesítés

Mindenképpen szükséges egy az egész korpuszra kiterjedő szigorúan egységes formátum, ez teszi lehetővé, hogy a lekérdezéseket az egész anyagra vonatkoztathassuk. A korpuszok egyik haszna, hogy nem csak példákat szolgáltatnak bizonyos jelenségekre, hanem adott lekérdezésre az összes találatot megadják, ezáltal lehetővé teszik a jelenségek statisztikai vizsgálatát is. A korpusz ezen fontos tulajdonságát csak úgy biztosíthatjuk, ha következetesen betartjuk azt az alapelvet, hogy azonos dolgokat mindig ugyanúgy, különbözőeket pedig mindig eltérően jelölünk. Ugyanakkor van egy olyan régi magyar karakter, amely a sztenderd kódtáblában nincsen reprezentálva. Ez az ún. huszita cs, amely megjelenésében leginkább egy kiskapitális l-hez hasonlítható, és amelyet – Volf Györgyöt követve – rendre č-vel helyettesítünk. Ezt a helyettesítő karaktert kizárólag a hiányzó eredeti karakter helyett használjuk a korpuszban.

A különböző korokban kiadott nyomtatott kódexátiratok tipográfiai kényszerűségek miatt azonos karaktereket eltérően jelenítenek meg. Ezen esetlegességeket igyekeztünk kiküszöbölni bizonyos fonológiai jelenségek egységesítésével, vagyis a különbözőképpen megjelenített, de azonos jelentésű karaktereket minden kódexben azonos sztenderd Unicode-karakterrel jelenítjük meg.

3.2.1. Aposztrófok

Jellemzően kétféle aposztróf használatát különíthetjük el az ómagyar kódexekben. Az egyik a palatalizáció jelölésére szolgál, ezt U+02BC modifier letter apostrophe-val, illetve bizonyos karakterek esetén acute accent-tel adjuk vissza:

dʼ [ɟ/dʲ] U+0064 latin small letter d + U+02BC modifier letter apostrophe
lʼ [lʲ] U+006C latin small letter l + U+02BC modifier letter apostrophe
tʼ [c͡ç/tʲ] U+0074 latin small letter t + U+02BC modifier letter apostrophe
ǵ [ɟ] U+01F5 latin small letter g with acute
ń [ɲ] U+0144 latin small letter n with acute

A č mellett időnként szereplő aposztróf is U+02BC modifier letter apostrophe, mivel ez is egyfajta palatalizációt jelöl: čʼ.

A hiányzó betűk jelölésére U+0027 apostrophe-t használunk, pl. nap'a (‘napja’). A felszólító módú alakoknál szokták még előszeretettel alkalmazni az aposztrófot, pl. akar' (‘akarj’), akkor is, ha a j hasonul, pl. ÿrgalmaz' (‘irgalmazz’).

Egyes scriptorok duplán használják az aposztrófot akár a palatalizáció, akár a hiányzó betűk jelölésére. Ilyen esetekben mi is dupla aposztrófot vagy ékezetet teszünk, pl.: boczanattʼʼa (‘bocsánatja’), nag̋ (‘nagy’).

Ha a scriptor a palatalizálandó karakter után még egy h-t ír, és ahhoz teszi az aposztrófot, akkor is U+02BC modifier letter apostrophe-t használunk, pl. dy̋chʼeseghes (‘dicsőséges’), kerezthʼenekkel (‘keresztyénekkel’).

3.2.2. Írásjelek

Az egymáshoz nagyon hasonló punktuációs karakterek közül egységesen mindig az alap latin kódtáblában levőket használjuk. Például az U+2013 en dash és az U+2014 em dash egyaránt U+002D hyphen-minus-ra lettek konvertálva. (Ez utóbbi az, amely megtalálható a magyar és az angol billentyűzeteken is.)

Az írásjeleket az előtte és utána levő szótól külön, egy csoportban közöljük, nem teszünk közéjük space-t, pl. sokon .. kÿról (‘sokan, kiről’). A díszítő funkciót betöltő több kötőjel vagy tilde helyett mindig csak egyet közlünk.

A tildeszerű jeleket mindig az U+007E tilde jellel jelenítjük meg. A keresztszerű jeleket mindig U+002B plus sign-nal jelenítjük meg. A díszített pontot U+00A7 section sign-nal adjuk vissza. Mindenféle kérdőjelszerű dolgot ?-ként adunk vissza. Az elválasztást jelölő = és : jeleket a ma használatos sima elválasztójelben egységesítettük.

3.2.3. Speciális karakterek

Az [ø] hang jelölésére használt alulvonásos o jelölésére mindig -t használunk (U+006F latin small letter o + U+0317 combining acute accent below), függetlenül attól, hogy a nyomtatott kiadásban függőleges vagy balra néző vonással jelenítették-e meg.

A Bécsi-kódexben és egyéb kódexekben használt jel az ún. Tiro-féle et jel, amely rendelkezik sztenderd Unicode-reprezentációval, ezért így jelenítjük meg. Az etc. rövidítésben is gyakran használják: ⁊c.

A legáltalánosabb rövidítési jel a rövidített szó fölé húzott vízszintes vonalka, ami elsősorban az m vagy n betű elhagyására utal. Ezeket egységesen mindig U+0304 combining macron-nal jelöljük pl. mōnon (‘monnon’), Am̄ (‘ámen’).

A pont nélküli i-t sehol nem jelöljük, mindenhol egységesen pontos i-t használunk.

A ligatúrákat mindig szétszedjük alkotóelemeire, pl. ij → ij.

Azokban a kódexekben, amelyek kiadója megkülönböztette a z-t és a ʒ-t, mi is ezt tesszük. Erre az U+0292 latin small letter ezh karaktert használjuk. (Nagybetűs változata: U+01B7 latin capital letter ezh.) A mindꝫ ('minden') szó végén levő rövidítést viszont az U+A76B latin small letter et karakterrel jelöljük. Ez a karakter a középkori írott szövegek jellemző rövidítési jele volt, különböző kontextusokban mást és mást rövidített, pl. et a videlicet-ben, m a nam-ban vagy az omnem-ben.

Az r-t tartalmazó szótagok rövidítését mindig U+0309 combining hook above-val jelöljük, pl. akảvan (‘akarván’), bảrabast (‘Barabást’).

A scriptorok sokszor használták a korban szokásos latin rövidítéseket, amelyeket az alábbi karakterekkel adunk vissza:

  • szó elején con-/com- előtag: (U+A76E latin capital letter con) vagy (U+A76F latin small letter con);
  • szó végén -us: (U+A770 modifier letter us);
  • pro- előtag: (U+A752 latin capital letter p with flourish) vagy (U+A753 latin small letter p with flourish);
  • per-/par- előtag: (U+A750 latin capital letter p with stroke through descender) vagy (U+A751 latin small letter p with stroke through descender);
  • pre-/pri- előtag: (U+0050 latin capital letter p + U+0304 combining macron) vagy (U+0070 latin small letter p + U+0304 combining macron).

(Ezen karakterek megjelenítéséhez szükséges a Junicode fontkészlet.)

A kis 2-re emlékeztető r betű az ún. r rotunda, amely már szerepel az 5.1-es Unicode-verzióban kis és nagy változatban is: (U+A75A latin capital letter r rotunda) és (U+A75B latin small letter r rotunda).

A kiadók által általában φ-vel vagy 9-essel jelölt latin szóvégi rövidítést a ꝭ karakterrel (U+A76D latin small letter is) jelenítjük meg, amit szóvégen használtak bármilyen és bárhány betű rövidítésére[1]. Ezt használják a scriptorok bizonyos magyar szavak rövidítésére is, pl. harꝭ ('három').

Az [y] és [y:] hangok jelölésére a mellékjeles helyesírást alkalmazók körében (elsősorban a Debreceni kódex 2. keze és a Lobkowicz-kódex 3. keze) v és w betűket használnak, időnként valamilyen alulvonással. A különböző kódexek különböző kiadói ezeket az alulvonásokat másképp jelenítették meg, de mi egységesen U+0317 combining acute accent below-val adjuk vissza őket, pl. v̗uo̗lt ('üvölt'), keserw̗segghel ('keserűséggel').

3.3. Zárójelek

A különböző zárójelek közül mindig az alap latin kódtáblában szereplő megfelelőt használjuk:

(U+0028 left parenthesis
)U+0029 right parenthesis
<U+003C less-than sign
>U+003E greater-than sign
[U+005B left square bracket
]U+005D right square bracket
{U+007B left curly bracket
}U+007D right curly bracket

A kódexekben található üresen maradt oldalakat [[]] jellel jelöljük.

4. Normalizálás

Mivel az ómagyar korban még nem volt egységes helyesírás, szükség van egy ún. normalizálási lépésre, amelynek során az eredeti betűhű szóalakokat mai magyar helyesírású szavakra alakítjuk át. Ez egyrészt könnyebben kereshetővé, jobban olvashatóvá és értelmezhetővé teszi a szövegeket, másrészt a normalizált szövegváltozat szolgál a morfológiai elemzés bemenetéül.

Időnként előfordul, hogy nem lehet kideríteni, hogy minek kéne lennie a normalizált alaknak. Ilyenkor üresen marad a normalizált alak helye, és a megjegyzés mezőbe NOIDEA kód kerül.

4.1. A normalizálás alapelvei

A normalizálás során két alapelvet tartottunk szem előtt. Első elvünk, hogy az összes ma nem létező szót, toldalékot, morfológiai konstrukciót megtartottuk, vagyis morfémát nem toldottunk be, és nem hagytunk el. A normalizálás második alapelve, hogy elhagyunk minden fonológiai és helyesírási esetlegességet, vagyis egységes, amennyire lehet, a mainak megfelelő helyesírásra törekszünk. Ez utóbbi azt is jelenti, hogy egy adott szót mindig ugyanúgy írunk le – ez is az egységesség elvének egy megnyilvánulása.

Időnként nem könnyű eldönteni, hogy mi számít esetlegességnek, és mi megőrzendő konstrukció. Ezekben az esetekben A magyar nyelv történeti-etimológiai szótára[2] (TESz) címszavaira támaszkodtunk. Azok az alakok, amelyek külön címszót vagy alcímszót kaptak a TESz-ben, külön szónak számítanak, vagyis nem vontuk össze őket más, ma létező szavakkal. Például a kedig és a pedig két külön szónak számítanak, de a mikoron és mikort a mikor alakváltozatai, nem önálló szavak.

4.2. Többértelműség

A normalizált alak mindig egy szó, az összes megfontolás végső eredménye. Ez azonban nem minden esetben egyértelmű, többször találkozunk feloldhatatlan többértelműséggel:

  • A ragozott igéről nem lehet eldönteni még a szövegkörnyezet segítségével sem, hogy definit, vagy sem, ilyenkor a rövid magánhangzós formára normalizáljuk, és utána teszünk egy U+00B4 acute accent-et, a morfológiai elemzésben pedig jelöljük a kétes definitséget:
  • kichallottac
    kiknemhallotta´k
    N:Pro:Rel.PlAdvV.Past.P3.Def?
  • Az -i birtokjelről sok esetben nehéz vagy lehetetlen eldönteni, hogy E/3. birtokos személyjel vagy birtoktöbbesítő jel. Pl. az ÿgeretÿth szóalak normalizálható ígéretét és ígéreteit alakokként egyaránt. Ha a kontextus és az egyeztetés alapján sem volt eldönthető, akkor az egyes számú alakra normalizáltuk, és a morfológiai elemzés kódjában feltüntettük, hogy i-s alakról van szó:
  • vrunknakedesÿgeretÿth
    Urunknakédesígéretét
    N:P.PxP1.Dat_genAdjN.PxS3=i.Acc
  • Az illatívuszi és inesszívuszi esetragokat felcserélve használja a scriptor, vagyis a mai nyelvérzékünk alapján -bAn kellene az adott kontextusba, de -bA ragot használ, vagy fordítva. Ilyenkor a normalizált alak és a morfológiai elemzés azt tükrözi, amit a scriptor eredetileg használt, és a megjegyzés rovatba beírjuk azt a kódot, ami arra utal, hogy minek kéne ott lennie:
  • Miägänkkiwägmēnëgbe
    miatyánkkivagymennyekbe
    MORFO{INE}

4.3. Egybe-különírás

Mivel a cél a mai helyesírás szerinti átírás, a mai szemmel helytelenül egybeírt szavakat szétválasztottuk, és megjelöltük, hogy eredetileg egybe volt írva: a kettéválasztásnál az első szó végére és a második szó elejére is két egyenlőségjel került:

desäbädicz====mkmikëtagonostwl
deszabadítsmegminketagonosztól

A mai helyesírás szerint egybeírandó különírt szavakat egybeírtuk, így a betűhű változatba szóköz kerül:

harmalnaponhalottay boolfelthamata
harmadnaponhalottaibólfeltámada

Az eredeti sortöréseket is kódoltuk, jele: @@. Ha a sor végén és/vagy elején volt kötőjel, azt is megőriztük:

egmen-@@denicatʼtʼafiatzorongatʼtʼa
egymindenikőatyjafiátnemszorongatja

Ha a scriptor elválasztott egy szót, amit ma külön írunk, akkor különválasztjuk a két szót, de jelöljük az elválasztójelet az első szó végén:

wrthol-angyal
Úrtólangyal

Csak az eredeti kódexbeli egybe- és különírásokat tartottuk meg, vagyis ha olyan kiadásból dolgozunk, amelyben az átirat közlője nem őrizte meg az eredeti sortöréseket, az adott kiadás tipográfiai kényszerűségeiből fakadó elválasztásokat nem jelöljük.

4.4. Mondatra bontás, központozás

A normalizálási lépés során történik meg a szöveg mondatokra való bontása is. Kétséges esetekben nem teszünk mondathatárt, vagyis azt az elvet követjük, hogy a mondat legyen inkább hosszabb, mint rövidebb. A mondatrabontásnál az alapelv az egy finit ige–egy mondat. A beágyazott mellékmondatokat vesszőkkel elválasztjuk a főmondattól, vagyis azok is külön mondatokként jelennek meg.

A betűhű szövegben megtartottuk az eredeti központozást, ha volt. A normalizált változatba a maihoz minél közelebb álló központozást írtunk. Ha az eredeti szövegben nincs központozás, de a mai szabályok szerint kéne, akkor a normalizált szintet a mainak megfelelő központozással láttuk el. Az általunk használt írásjelek: .,?!:

Az írásjelek az előtte levő szótól elválasztva szerepelnek, vagyis külön tokent alkotnak.

4.5. Kis-nagybetűsség, tulajdonnevek

A normalizált változatban a mondatkezdő szavak is kisbetűvel szerepelnek, egyedül a tulajdonneveket írjuk nagybetűvel. Az Atya, Úr, Isten, Fiú, Szentlélek stb. neveket is nagy betűvel írjuk, kivéve, ha nem tulajdonnévi értelemben vannak használva, pl. wagy embernek fýa (‘vagy embernek fia’).

Az egységesség jegyében a különböző bibliafordításokban és bibliai históriákban említett tulajdonneveket is normalizáljuk, vagyis egy adott név különbözőképpen használt alakjait egységesítjük. Ehhez a Szent István Társulati Bibliát használjuk: minden tulajdonnevet abban az alakban normalizálunk, ahogy ebben a kiadásban szerepel.

A szöveg közben említett imák címei is tulajdonnevek:

KeethIdwez leegýmaríathmongý
kétÜdvözlégyMáriátmondj

Viszont amikor maga az ima szövege szerepel a kódexben, akkor nem tulajdonnévként van normalizálva és elemezve:

IDwezleegyzenthseegesmaría
üdvözlégyszentségesMária

A tulajdonnévhez tartozó állandó jelzők (pl. Szűz Mária, Aranyszájú Szent János) a név részeként vannak kezelve, ezért nagybetűvel íródnak, és tulajdonnévi kódot kapnak.

A többtagú tulajdonneveket tagokra bontjuk, mindegyik tag külön tokenként van kezelve. A ragozott nevek esetében a ragot jelző morfológiai kód csak az utolsó elemre kerül, az előtte levők alanyesetűként vannak kódolva:

hoghmeltoklegýenkyesuschristosnakýgeͤrethýre
hogyméltóklegyünkJézusKrisztusnakígéretére
CAdj.PlV.Subj.P1N:PN:P.Dat_genN.PxS3=i.Sub

5. Morfológiai elemzés

Mivel a projekt célja elsősorban az ómagyar szintaxis vizsgálata, nem törekszünk teljeskörű morfofonológiai elemzésre, vagyis a kódolásban nem tükröztetjük a szóalak teljes felépítését. Bevezettünk viszont egy olyan kategóriát, amely valójában túlnyúlik a morfológia hatáskörén, és inkább már a szintaxis vizsgálatához nyújt segítséget. Ez a nominatívuszi és datívuszi birtokos esetek használata:

ewfelthamadasaanakdýchewseegeͤn
őfeltámadásánakdicsőségén
N:Pro.S3.Nom_genN.PxS3.Dat_genN.PxS3.Sup

Ezekben az esetekben a morfológiai elemzés feladata csupán a felszíni datívuszi és nominatívuszi esetek rögzítése lenne, de bizonyos mondattani vizsgálatokhoz a genitívusz kódolása elengedhetetlennek bizonyult.

Más esetekben viszont nem kódolunk szintaktikai jelenségeket. Például a jelöletlen tárgyeseteket nem akkuzatívuszként, hanem nominatívuszként kódoljuk:

feýele haythwaan
fejelehajtván
N.PxS3VPfx.V.PartAdv=vÁn

Hasonlóan, az olyan szerkezetekben, ahol a birtokos az ő személyes névmás, ami valójában T/3., de a felszínen E/3-ként jelenik meg, E/3. személyragot kap:

ewzawok
őszavuk
N:Pro.S3.Nom_genN.PxP3

Bizonyos tekintetben a szemantika felé is túlnyúlunk a morfológián: külön kódoljuk pl. a színneveket, népneveket, anyagneveket és a tulajdonneveket.

Már a normalizálás során felmerült az a probléma, hogy bizonyos ómagyar szóalakok többértelműek, vagyis a szövegkörnyezet alapján sem lehet őket egyértelműen normalizálni. Az ilyen esetekben a morfológiai elemzés során is megőrizzük a szóalak alulspecifikáltságát.

Az igekötő kódját, ha közvetlenül az ige előtt áll, hozzácsatoljuk az ige kódjához:

eesky tízthwloknagýwetheesbewl
éskitisztuloknagyvétésből
CVPfx.V.S1AdjN.Ela

Hasonlóan az -e kérdőpartikula kódját annak a szónak az elemzéséhez rendeljük, amelyikhez kapcsolódik:

haborosage
háborúság-e
N.QPtl

Több olyan eset van, amikor nem lehet eldönteni, hogy igekötő vagy határozószó-e az adott szó, ilyenkor határozószónak kódoltuk:

mÿnteggÿo̗thelnÿesegÿembehnÿaÿaskodnÿ
mintegyüttélniésegyembenyájaskodni
CAdvV.InfCAdvV.Inf

Ugyanígy, ha nem lehetett eldönteni, hogy névmás vagy igekötő-e, akkor névmásnak kódoltuk:

Esrategyetekakenyertesazbort
éstegyétekakenyeretésabort
CN:Pro.Sub.S3V.Subj.P2.DefDetN.AccCDetN.Acc

Az igealaktól elvált igekötőket külön mezőben rögzítjük az igealak mellett. Ennek a funkciónak a segítségével azokat az igekötős igéket is könnyen meg tudjuk találni, amelyek elmozdultak az ige mellől a mondatban:

desäbädiczmkmikëtagonostwl
deszabadítsmegminketagonosztól
meg

Az összetett igealakokat elemeikre bontjuk, vagyis minden elem külön tokenként értelmeződik. A segédige személyjelölés nélküli elemzést kap:

zenthÿanosewangelistaćzodalkozÿkvala
SzentJánosevangélistacsodálkozikvala
N:PN:PNV.S3V.Ipf

A duplán jelölt tárgyesetet (pl. őtet) a morfológiai elemzésben nem jelöljük külön, hanem ugyanolyan kódot kap, mint az egyszeresen jelölt alak (őt).

A többes szófajú szavakat mindig az elsődleges szófajuk szerint címkézzük, akkor is, ha ragozva vannak:

Syketeknekhallamast
süketeknekhallomást
Adj.Pl.DatN.Acc

A morfológiai elemzés során használt kódkészlet teljes leírása elérhető innen.

6. Metaadatok

A korpusz a különböző szinteken feldolgozott szövegen kívül számos metaadatot tartalmaz.

6.1. Lókuszjelölők

Az elsődleges metaadatok az ún. lókuszjelölők, melyek megadják, hogy a dokumentumban hol szerepel az éppen aktuálisan keresett szövegszó. A lókuszjelölők szövegenként változnak, de annyiban megegyeznek, hogy mindig az eredeti kódex helyeire vonatkoznak, nem a nyomtatott kiadáséira. A bibliafordítást tartalmazó kódexek esetében a bibliai könyv-, fejezet- és versszámozást is közöljük, ha az átirat kiadója közölte. A bibliai könyvek címének rövidített változatait alkalmazzuk, a Szent István Társulati Biblia alapján (pl. Ter: Teremtés könyve, Én: Énekek éneke).

6.2. Megjegyzés mező

A megjegyzés mező egyrészt szabad szöveges megjegyzések rögzítésére alkalmas, másrészt ide kerülnek a szöveghez tartozó egyéb metaadatok is különböző kódok formájában. A korpusz az alábbi metaadatokat tartalmazza:

  • Ha a cím a szöveg része, akkor szövegként kódoljuk, és a megjegyzés rovatba TITLE kód kerül. Ha a cím nem a szöveg része, akkor lókuszjelölőként funkcionál.
  • A szövegekben előforduló idegen nyelvű szavakat, amelyek a szöveg részét képezik, felvesszük a korpuszba, és a LANG{nyelv} címkét adjuk nekik, amellyel egyben azt is jelezzük, hogy ennek a szónak nincs normalizált alakja és morfológiai elemzése. Ha az idegen nyelvű szó magyarul ragozódik, akkor magyar szóként kezeljük, vagyis normalizáljuk, és elemezzük. Ha a szöveg hosszú, önálló idegen nyelvű részt tartalmaz, akkor azt eleve nem is rögzítjük. Ha ettől egyedi indokkal mégis eltérünk, azt külön jelezzük az egyes szövegek leírásánál.
  • A betűhű szövegváltozatban a scriptor javításait is rögzítettük. Ezeket a következőképpen jelöljük:
    • scriptor általi utólagos betoldás: ADD;
    • szövegrekonstrukció eredményeként létrejött betoldás: RECO;
    • az eredeti szövegben szereplő áthúzott szöveg: STRIKE;
    • a scriptor által elírt, de nem áthúzott szó: FAIL;
    • töredékes szó: FRAG;
    • a scriptor által elírt, és nem javított szó, amiről mégis tudjuk, hogy nem jó: ERROR.

6.3. Értelmezés mező

A korpusz tartalmaz egy értelmezés mezőt is, amelybe a normalizált alak mai magyarra való “fordítása” kerülhet, például az ómagyar ‘jonh’ szó mai magyar ‘szív’ megfelelője. Az a tény, hogy külön mezőben rögzítjük az értelmezést, természetesen nem jelenti azt, hogy a normalizálás során nem történik értelmezés. Normalizálás és értelmezés szorosan összefüggenek, az utóbbi feltétele az előbbinek. A mező használata opcionális, csak abban az esetben került bele szöveg, ha a kódoló egyéni belátása szerint úgy döntött, hogy szükség van rá.


[1] Adriano Cappelli: The elements of abbreviation in medieval Latin paleography 2.o.

[2] A magyar nyelv történeti-etimológiai szótára. Benkő Loránd (főszerk.), Akadémiai kiadó, Budapest, 1967.