Lietuvių kalbos duomenų bazės

VDU RENGIAMAS PORTALAS

2018-12-16

Įgyvendinant projektą „Užsienio baltistikos centrų ir Lietuvos mokslo ir studijų institucijų bendradarbiavimo skatinimas“, rengiamas portalas https://kalbu.vdu.lt/. Jame bus prieinami du tekstynai (mokomieji ir besimokančiųjų), leksikonas, tarties žodynas, automatinio kirčiavimo įrankis ir morfologiškai anotuoto tekstyno paieška. Pastarasis išteklius jau veikia, jį rasite čia: https://kalbu.vdu.lt/mokymosi-priemones/morfologiskai-anotuotas-tekstynas/. Kad lietuvių kalbos dėstytojai ir jos besimokantieji geriau suprastų, kaip panaudoti šį išteklių, toliau paaiškinta, kaip sudarytas tekstynas, kaip jame atlikti paiešką.

Morfologiškai anotuotas tekstynas rengtas 2002–2014 m., o pradėjus vykdyti projektą „Užsienio baltistikos centrų ir Lietuvos mokslo ir studijų institucijų bendradarbiavimo skatinimas“, parengta jo paieškos sistema. Tekstynas pirmiausia buvo automatiškai morfologiškai anotuotas, tam naudotas morfologinis anotatorius Lemuoklis (jis prieinamas čia: http://tekstynas.vdu.lt/page.xhtml?id=morphological-annotator), vėliau visus tekstus peržiūrėjo ir sutvarkė lingvistas, nes paaiškėjo, kad beveik pusė žodžių yra morfologiškai daugiareikšmiai, tad reikėjo patikslinti lemas (antraštines formas), gramatines pažymas. Be to, ne visada buvo nurodyta reikalinga informacija, jei morfologinis anotatorius neatpažino žodžių.

Tekstyną sudaro 1,6 mln. žodžių iš keturių funkcinių stilių tekstų: didžiausią dalį sudaro periodikos tekstai (36 proc.), apylygės yra mokslinių (24 proc.) ir administracinių (21 proc.) tekstų dalys, mažiausia grožinės literatūros dalis (19 proc.). Atkreiptinas dėmesys, kad prie administracinių tekstų yra pateikta Seimo stenogramų, todėl reikėtų nenustebti, jei administracinėje tekstyno dalyje rasite keletą jaustukų ar ištiktukų, šauksmininko atvejų. Paiešką galima atlikti iš karto visose tekstyno dalyse arba galima pasirinkti vieną ar daugiau tekstyno dalių.

Morfologinės pažymos sudarytos pagal Leipcigo glosavimo taisykles (žr. https://www.eva.mpg.de/lingua/resources/glossing-rules.php). Yra pridėtos kelios pažymos, kurių nėra minėtose pažymose, pvz., ~COMP reiškia aukštesnįjį laipsnį. Prieš tokias pažymas rašomas tildės ženklas. Kalbos dalys žymimos taip: NOUN – daiktavardis, PROPN – tikrinis daiktavardis, VERB – veiksmažodis, ADJ – būdvardis, PRON – įvardis, NUM – skaitvardis, CONJ – jungtukas, ADV – prieveiksmis, PART – dalelytė, ADP – prielinksnis, INTJ – jaustukai ir ištiktukai. Taip pat anotuojami ir skyrybos ženklai, jie žymimi PUNCT. Toliau išvardytos kai kurių gramatinių kategorijų pažymos: M. – vyriškoji giminė, F. – moteriškoji giminė, N. – bevardė giminė, SG. – vienaskaita, PL. – daugiskaita, NOM. – vardininkas, GEN. – kilmininkas, DAT. – naudininkas, ACC. – galininkas, INS. – įnagininkas, LOC. – vietininkas, VOC. – šauksmininkas, IND. – tiesioginė nuosaka, PRS. – esamasis laikas, 1. – pirmasis asmuo, PTCP. – dalyvis, INF. – bendratis, REFL. – sangrąžinė forma, ~DEF. – įvardžiuotinė forma ir pan.

Šiame tekstyne galima ieškoti žodžių formų, lemų, kalbos dalių, gramatinių kategorijų. Pačios paprasčiausios paieškos užklausos tokios:

·         "kalba" arba tok="kalba" (ieškoma žodžio formos kalba);

·         lemma="kalba" (ieškoma lemos kalba);

·         lemma="kalbėti" (ieškoma lemos kalbėti);

·         pos="ADJ" (ieškoma būdvardžių);

·         gram=".M.SG.GEN." (ieškoma tam tikrų gramatinių kategorijų, šiuo atveju vienaskaitos vyriškąja gimine kilmininko forma pavartotų žodžių).

Paminėtina, kad būtina skirti didžiąsias ir mažąsias raides, nes dėl šios priežasties galite visai negauti rezultatų arba jų gauti mažiau nei tuo atveju, jei užklausa būtų suformuluota tinkamai.

Daugiau informacijos apie paiešką, taip pat sudėtingesnės paieškos užklausų pavyzdžių rasite mokymo priemonėje (ji pateikta viršuje arba galima rasti paspaudus „Pagalba/Pavyzdžiai“), o apie patį tekstyną išsamiau siūlome paskaityti šiame straipsnyje: Bielinskienė A., Boizou L., Rimkutė E. 2017: Lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai. Bendrinė kalba 90, 1–30. http://www.bendrinekalba.lt/Straipsniai/90/Bielinskiene ir kt_BK_90_straipsnis.pdf.

Morfologiškai anotuoto tekstyno paieškos sąsajos rengėjai tikisi, kad ši priemonė praves mokant(is) lietuvių kalbos, padės surasti reikalingų vartosenos atvejų, paskatins kitokio pobūdžio lietuvių kalbos morfologijos tyrimus.

Erika Rimkutė


grįžti