Pille Eslon
Mart Laanpere
Tallinna Ülikooli eesti vahekeele korpus on eesti õppijakeele kirjalike tekstide kogu, millel on rida alamkorpusi, kasutajaliides, mitmetasandiline annoteerimis- ja märgendussüsteem, statistikamoodul, tekstide automaatse analüüsi võimalus jm. Kombineerides teksti erinevaid tunnuseid (nt teksti liik, sõnede arv, lausete hulk), vealiike ja metateavet õppija kohta (nt emakeel, päritolumaa, sugu, haridus, keeleoskustase) võimaldab Eesti vahekeele korpuse kasutajaliides teostada mitmetasandilisi päringuid.
Seisuga oktoober 2013 sisaldab korpus 11 720 teksti, üldmaht on 3 185 591 sõnet, teksti keskmine pikkus 272 sõnet.
Tabel. Eesti vahekeele korpuse alamkorpused.
Alamkorpus | Tekstide arv | Sõnede arv | Teksti keskmine pikkus |
K2 tuumkorpus | 3 151 | 804 094 | 255 |
K2 riiklikud eksamitööd | 7 856 | 1 989 844 | 253 |
K2 olümpiaadi tööd | 63 | 58 684 | 932 |
K2 akadeemiline eesti keel | 13 | 14 716 | 1132 |
K1 akadeemiline eesti keel* | 4 | 3 339 | 835 |
K1 vene keel (referentskorpus) | 370 | 209 885 | 567 |
K3 vene keel (referentskorpus) | 273 | 101 566 | 372 |
*Alamkorpuse koostaja on Tallinna Ülikooli teaduskeele keskus (P. Nemvalts).
Korpust saab kasutada 1) empiirilist ja rakenduslikku laadi uurimistöös (nt eesti keele omandamisprotsess, Euroopa Nõukogu keeleoskustasemed, eesti keele kasutusmustrid, keele arengutendentsid); 2) tulevaste õpetajate ja lingvistide koolitamisel (nt veaanalüüs, sõna- ja vormisagedus, klasteranalüüs); 3) tegevõpetajate täiendõppes (nt kuidas keele õpetamisel korpusi kasutada, kuidas korpusandmeid kasutades hinnata keeleõpikute asjakohasust) jm.