Digitalizácia slovenských textov a ich využitie v Slovenskom národnom korpuse

Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku. Cieľom zberu a počítačového spracovania textov nie je tvorba elektronickej knižnice ani archívu, ale budovanie a spravovanie korpusu ako materiálového zdroja informácií o jazyku.

Z viacerých druhov korpusov (napr. písaný – hovorený, jednojazyčný – viacjazyčný, všeobecný – špeciálny, synchrónny – diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať. Jeho tvorba sa skladá z viacerých fáz:

1. Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.

2. Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia. Táto podoba korpusu tvorí banku.

3. V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova – lema), vetám jazykové informácie na úrovni viet a pod. Vzniká corpusoid – interná verzia korpusu použiteľná v JÚĽŠ SAV.

4. Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. 100 znakov okolo hľadaného slova) všetkým bádateľom a záujemcom o slovenský jazyk, ktorí súhlasia s podmienkami nekomerčného používania Slovenského národného korpusu.

simkova.jpg (234133 bytes)

Od roku 2009 je verejnosti k dispozícii najnovšia verzia hlavného korpusu prim-4.0-public-all (http://korpus.juls.savba.sk) v rozsahu takmer 530 miliónov textových jednotiek. Používateľ môže v korpuse hľadať:

konkrétny tvar slova alebo slov: napr. slovenskými knižnicami – zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkordancia),
všetky tvary slova pomocou základného tvaru – lemy: knižnica – zobrazia sa kontexty slova knižnica vo všetkých jeho pádoch jednotného aj množného čísla,
konkrétnu morfologickú kategóriu pomocou značky – tagu: SSfp7 – zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7. páde [7] (môžeme sledovať realizáciu koncovky -cmi/-cami).

Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod. V rámci SNK sa budujú aj paralelné korpusy – spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus.

Vzhľadom na to, že databáza SNK má pokrývať slovnú zásobu od roku 1955 (aj v súvise s potrebami koncipovania nového výkladového Slovníka súčasného slovenského jazyka), veľa textov z predchádzajúcich desaťročí je potrebné digitalizovať. V archíve SNK sa nachádza približne štyritisíc takto spracovaných dokumentov, tie však v súlade s licenčnou zmluvou slúžia výlučne ako zdroj na tvorbu jazykového korpusu a nie sú prístupné verejnosti.

Napriek tomu môžeme povedať, že SNK okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Jednak masívnou digitalizáciou starších textov, a to aj starších ako z r. 1955 (sprístupnili sme napr. Bernolákov Slovník, Štúrovu Náuku, viaceré staršie pravidlá pravopisu – všetko dostupné na WWW: http://www.juls.savba.sk/ediela/), jednak samotnou tvorbou databázy, na základe ktorej sa mapuje starší aj súčasný reálny stav slovenského jazyka ako národnoreprezentatívnej a kultúrnej hodnoty. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov. V rámci možností a autorského zákona rozvíjame spoluprácu aj s ďalšími inštitúciami pôsobiacimi v oblasti digitalizácie textov (Univerzitná knižnica v Bratislave, Občianske združenie Infoblind) – ide najmä o výmenu elektronických verzií textov, čo všetkým zúčastneným šetrí čas a v neposlednom rade aj finančné prostriedky.

Digitalizácia slovenských textov a ich využitie v Slovenskom národnom korpuse

Zdieľať:

Číslo: 2/2010

Obsah čísla