Digitaalhumanitaaria ja keeletehnoloogia töörühm

Liina Lindström (Tartu Ülikool), Einar Meister (Tallinna Tehnikaülikool), Mari Sarv (Eesti Kirjandusmuuseum)

Töörühm tegutseb digitaalhumanitaaria kontseptsiooni raames: (1) keeletehnoloogia, sh meetodite ja vahendite väljatöötamisega (eelkõige eesti keele jaoks); (2) tõhustab ja laiendab eesti keele alast uurimistööd erinevate digitehnoloogiate ja -vahendite abil; (3) koostab ja haldab eesti keelt ja kultuuri käsitlevaid või puudutavaid andmekogusid, tehes need kättesaadavaks teadlaskonnale ja võimaluse korral ka laiemale avalikkusele ja populariseerib neid; (4) edendab Eesti-uuringute Tippkeskuse teadlastele ja Eesti teadlaskonnale laiapõhjalist digitaalhumanitaaria (st digitaalhumanitaarias kasutatavate digitaalsete ja arvutialaste uurimismeetodite, rakenduste ja lahenduste) tutvustamist; tegutseb Eesti ja rahvusvahelise digitaalhumanitaaria teadlaskonna integreerimisega ning Eesti digitaalhumanitaaria tutvustamisega rahvusvahelisel areenil; innustab ja toetab tippkeskuse teadlasi digipädevuse arendamisel ning digitaalhumanitaaria meetodite omandamisel. Selle valdkonna tulemused võib laias laastus jagada kaheks:

1. Keeletehnoloogia valdkonnas on töörühm jätkanud eesti keele uuringuid, mis on seotud kõnetuvastuseks (TalTech) ja kõnesünteesiks (EKI) vajaliku tehnoloogia arendamisega. Loodi algoritmid kõnetuvastuse akustiliste mudelite kohandamiseks taustmüraga kõnele ning täiustati usaldusväärsuseid akustilisi mudeleid, mis parandavad kõnetuvastuse kvaliteeti mürarikastes ja suure järelkõla tingimustes. Seoses süvanärvivõrgu põhiste masinõppemudelite kasutuselevõtuga ja kõnekorpuste mahu suurenemisega on eesti keele kõnetuvastuse kvaliteet oluliselt paranenud; uurimistöö tulemused on hõlmatud avalikku kõnetuvastusrakendusse (http://bark.phon.ioc.ee/webtrans/). Töörühm uuris suulise kõne eri žanrite akustilisi eripärasid, analüüsis lause- ja sõnarõhu akustilisi vasteid ning palatalisatsiooni variatsioone. Viidi lõpule uuring kultuuri mõjust hääle atraktiivsuse tajumisele.

2. Korpusepõhised murdeuuringud (TÜ) on keele- ja ruumiandmeid ühendades andnud uusi tulemusi murrete variatsioonide kohta ning tuvastanud, et konstruktsioonide eri osade varieerumist mõjutavad erinevad tegurid, nii geograafilised kui ka keelesisesed (Lindström, Uiboaed 2017). Lisaks teadusartiklitele on tulemused esitatud ka digitaalsel kujul aadressil http://rurake.keeleressursid.ee/; ruumiandmete visualiseerimiseks loodud abivahendid on avalikult kättesaadavad aadressil https://github.com/kristel-/spatial-visualization-with-r.

3. Jätkati eesti keelt ja kultuuri käsitlevate andmebaaside süsteemset täiendamist (vt publikatsioonide loetelu); vajaduse/võimaluse korral töötati välja ka uusi funktsioone. Algatati TÜ ja Eesti Rahvusarhiivi koostööprojekt kihelkonnakohtu protokollide tekstikorpuse koostamiseks ühisrahastuse abil; EKM alustas koostöös TalTechi tudengitega regilaulude andmebaasi nüüdisaegse, teiste andmebaasidega ühilduva versiooni koostamist.

4. Töörühma liikmed korraldasid keeletehnoloogia rahvusvahelise konverentsi (TÜ), kolm rahvusvahelist digitaalhumanitaaria konverentsi koostöös Eesti Digitaalhumanitaaria Seltsi ja teiste organisatsioonidega (EKM, TÜ) ning kolm digitaalhumanitaaria arutlusringi suurtel rahvusvahelistel konverentsidel (EKM).

Töörühma liikmed TÜ-s on alustanud koostööd digitaalhumanitaaria valdkonnas Digihumanitaaria ja infoühiskonna keskuse ( http://digihum.ut.ee/) vormis, mis lisaks humanitaarteaduste valdkonnale hõlmab ka TÜ arvutiteaduse instituudi, TÜ teadusraamatukogu ja ühiskonnateaduste instituudi esindajad. Lisaks on meetodeid laialdaselt tutvustatud loengute abil (digitaalhumanitaaria valikmoodul kraadiõppuritele, külalisõppejõud digitaalhumanitaaria valdkonnas).