Grįžti Brigita, birželio, 23 2023

DIGIRES mokslininkai sukūrė duomenų rinkinius, skirtus dezinformacijos kalbos atpažinimui

DIGIRES, be kitų su dezinformacija ir medijų raštingumu susijusių veiklų, atlieka ir eksperimentus su dezinformacijos kalbos nustatymu. Jų ėmėsi projekto mokslininkai Darius Amilevičius ir Andrius Utka, sukūrę atviros prieigos tekstyną ir specializuotą duomenų rinkinį, skirtus dezinformacijai lietuvių kalba tirti. Tokių duomenų lietuvių kalba iki šiol dar nebuvo sukaupta. 

„Siekėme sukurti duomenų rinkinį, kuris padėtų atsakyti į klausimus – ar tekstai, kuriais skleidžiama dezinformacija, yra kuo nors ypatingi? Ar be melagingų faktų jiems yra būdingi tam tikri lingvistiniai bruožai, o galbūt jų kalbinės raiškos būdai niekuo nesiskiria nuo įprastinių žiniasklaidos straipsnių? Tokių duomenų lietuvių kalba dar nebuvo sukaupta“, – sako mokslininkai D. Amilevičius ir A. Utka.

Projekto DIGIRES tema yra dezinformacija, o ypač daug dezinformacijos sulaukta COVID-19 pandemijos tema, todėl buvo nuspręsta kaupti tekstus būtent šia tema. „Siekdami išlikti objektyviais, nusprendėme kaupti tik tuos melagingus straipsnius, kuriuose melaginga informacija buvo patikrinta ir patvirtinta profesionalių faktų tikrintojų“, – pasakoja mokslininkai.  

Šią problemą jiems išspręsti padėjo DIGIRES projekto narės – naujienų portalo DELFI skilties „Melo detektorius“ redaktorė, faktų tikrintoja Aistė Meidutė bei VDU mokslininkė Jūratė Ruzaitė. 

Tyrėjams reikėjo sukaupti pakankamai straipsnių tiek su melaginga, tiek su teisinga informacija. Iš viso buvo surinktas tekstynas su 176 melagingais ir 175 teisingais straipsniais, kurių bendras dydis – 186 000 žodžių. 

„Taip surinktą tekstyną galima tirti tradiciniais kalbos technologijų įrankiais – konkordavimo programomis, morfologiniais anotatoriais arba dažninių sąrašų generatoriais. Tiesa, reikia paminėti, kad šiuolaikiniuose kalbos tyrimuose vis dažniau yra taikomi mašininio mokymosi metodai ir dirbtinio intelekto technologijos, kurioms reikalingas specialus duomenų sutvarkymas tam, kad būtų galima jais apmokinti neuroninius tinklus. Dėl to buvo nuspręsta sukurti dar vieną duomenyną, kuris būtų skirtas mašininio mokymosi įrankiams“, – pasakoja mokslininkai.

Abu duomenų rinkiniai mokslinei bendruomenei yra viešai prieinami mokslinių tyrimų infrastruktūros CLARIN-LT saugykloje.