Text and Data Mining – TDM (Hĺbková analýza dát) na IFLA 2014

IFLA / IFLA IFLAText and Data Mining

Článok prináša informácie o problematike, ktorá si nachádza postupne svoje miesto už aj v spoločenských vedách, hoci doposiaľ sa využívala najmä v iných oblastiach, napríklad v technických vedách, v marketingu, v bankovníctve, v poisťovníctve, v obchode, v medicíne, v telekomunikáciách, v štátnej správe. Hĺbková analýza dát (starší výraz dolovanie dát) je proces analýzy dát z rôznych perspektív a ich sumarizácia na užitočné informácie. Spravidla ide o extrahovanie užitočných informácií z veľkých databáz, hľadanie korelácií alebo vzorov spomedzi tiscok polí v relačných databázach (1). Autori príspevkov na konferencii IFLA ukázali, že tieto metódy je možné využívať aj v oblasti humanitných vied a tiež v knižniciach, ktoré by sa uplatnením metód hĺbkovej analýzy dát na svojich zbierkach mohli priamo zapojiť do vedeckovýskumnej činnosti v oblasti spoločenských vied.

Počas 80. medzinárodnej konferencie IFLA 2014 v Lyone (15. – 21. august) s názvom „Knižnice, občania, spoločnosti: sútok poznania“ sa konalo zasadanie, ktoré zorganizovali spoločne 3 stále výbory, a to Stály výbor IFLA pre seriály a iné po- kračujúce pramene – SOCRStály výbor IFLA pre copyright a legislatívne otázky (CLM) Stály výbor IFLA pre aka- demické a vedecké knižnice pod názvom Výskum v ére veľkých súborov údajov: legislatívne, spoločenské a technické prístupy k veľkým súborom textov a údajov.

Peter Leonard (Yale University Library, New Haven, USA) predniesol príspevok o veľkých súboroch údajov v humanitných vedách (2). Autor hovoril o možnostiach práce s veľkými súbormi údajov, čo by mohli využívať knižnice pri práci s veľ- kými digitalizovanými zbierkami dokumentov. Hoci niektoré vedné disciplíny už dlhšie využívajú digitalizované zbierky, napríklad odborníci z oblasti lingvistiky (corpus linguistics), v niektorých oblastiach, ako je napríklad literatúra a história, sa tieto možnosti ešte málo využívajú. Knižnice sú podľa autora vhodnými organizáciami na zastrešovanie nových foriem skú- mania veľkých súborov údajov pre odborníkov humanitných odborov. Príkladmi nástrojov na hĺbkovú analýzu dát sú napríklad tzv. Google Books Ngram search a Bookworm tool. Google Books Ngram search umožňuje používateľom vyhľadávať slová a frázy vo veľkom počte ročníkov digitalizovaných titulov vrátane tých, ktorých sa dotýka autorské právo, v tomto prípade umožňujú čitateľom len zmapovanie vzostupu a poklesu tzv. ngramov. Ngram je sled n po sebe idúcich položiek z danej postupnosti. Môže ísť o postupnosť slov alebo písmen. V praxi sa vyskytujú najčastejšie ako sled slov (3). Bookworm tool môžu knižnice využívať na transformáciu pasívnych archívov digitálnych textov na zbierky aktívne zapojené do výskumu. Autor uvádza skúsenosti z experimentovania vo svojej domovskej inštitúcii, kde sa realizovala hĺbková analýza údajov na digitalizovaných zbiekach Yalskej univerzity s využitím Google Books Ngram search a vlastných nástrojov.

Príspevok s problematikou e-marketingu predniesli Jean Luc Marini a Fanjuan Shi (IAE University of Lyon, University Jean Moulin Lyon, Francúzsko), (4). Zaoberali sa racionálnym a intuitívnym rozhodovacím procesom. Autori podčiarkujú dôležitosť emócií v intuitívnych rozhodovacích procesoch. Všímajú si rôznu interpretáciu dát získaných z tzv. veľkých súborov údajov pri použití vedeckých metód v oblasti psychokognitívnych vied s cieľom zdokonaliť systémy na podporu rozhodovacích procesov. Príspevok sa zaoberal tiež emočne orientovanou e-komerciou, odporúčacími systémami v e-komercii, metodológiou odporúčacích systémov a tiež ich efektivitou.

Christoph Bruch (Helmholtz Association, Berlin, Nemecko) sa vo svojom príspevku (5) zaoberal problematikou hĺbko- vej analýzy dát a copyrightu a možnými riešeniami pre budúcnosť. Poukazuje na dôležitosť TDM pre vedcov, prináša štatis- tiky o publikáciách o TDM, o grantoch a patentoch v oblasti TDM. Poukazuje na ťažkú situáciu vedcov využívajúcich TDM v súčasnej neprehľadnej a nedostatočnej legislatíve. Situáciu sťažujú tiež licenčné podmienky. Mnohí vedci využívajúci TDM nie sú si vedomí právnych dôsledkov, ktoré vyplývajú z licenčných obmedzení. Organizácia Science Europe prináša legislatívne východiská pre využívanie TDM, cieľom je, aby bol verejne financovaný obsah (financovaný z grantov) voľne dostupný na opätovné používanie s ohľadom na návratnosť v podobe ekonomického rastu.

Susan Reilly (LIBER, the Association of European Research Libraries, Haag, Holandsko) sa zaoberá problematikou autorského práva v oblasti hĺbkovej analýzy dát (6). LIBER – Asociácia európskych vedeckých knižníc – iniciuje legislatívne zmeny v oblasti autorských práv na lepšie využitie možností hĺbkovej analýzy dát. Do diskusií zapojila asociácia široké široké spektrum zainteresovaných strán. Príspevok venuje pozornosť bariéram, ktoré vyplynuli z tejto diskusie, a tiež sa zmieňuje o konzultácii  Komisie EÚ v oblasti autorského práva, s cieľom otvorenia cesty knižníc k zmenám v doterajšom systéme co- pyrightu , ktoré by umožnili udomácnenie a používanie pokrokových metód vo výskume adekvátnych digitálnej dobe.

Autorka spomenula priekopnícke vydavateľstvá v oblasti hĺbkovej analýzy údajov – Elsevier a Nature, ktoré spustili vlastné služby a politiky v oblasti hĺbkovej analýzy údajov. Konštatuje, že hoci sú tieto služby vítaným pokrokom, zatiaľ sú veľmi obmedzujúce a keby sa táto situácia nezmenila, knižnice by boli pravdepodobne nútené nahradiť dlhodobý prístup koncových používateľov krátkodobým prístupom.

Posledný príspevok autorov Joy Davidson, Sarah Jones a Laura Molloy (Digital Curation Centre, University of Glas- gow, Glasgow, Anglicko) je venovaný veľkým súborom údajov a potenciálnej úlohe manažmentu výskumu údajov a registrov výskumu údajov (7). Autori sa zaoberajú pilotným projektom, ktorý sa realizuje v Anglicku na univerzitách pod názvom Research Data Registry and Discovery Service a realizuje ho Digitálne kurátorské centrum Univerzity v Glasgove. Uvádzajú sa možnosti využitia nástrojov manažmentu výskumu údajov na prípravu projektov v knižniciach a na prípravu a realizáciu projektov repozitárov.


Použitáliteratúra:

1   http://sk.wikipedia.org/wiki/H%C4%BAbkov%C3%A1_anal%C3%BDza_d%C3%A1t

2   LEONARD, Peter: Mining large datasets for the humanities [online]. In IFLA 2014 Lyon. [cit. 14. November 2014]. Dostupné na internete: http://library.ifla.org/930/1/119-leonard-en.pdf

3   http://cs.wikipedia.org/wiki/N-gram

4   http://www.ifla.org/files/assets/academic-and-research-libraries/publications/wlic-presentation-119-marini-en-1.pdf

5   http://www.ifla.org/files/assets/academic-and-research-libraries/publications/baruch-copyrighttextdatamining-redced.pdf

6   REILLY, Susan: Libraries at the centre of the debate on copyright and text and data mining: the LIBER experience [online] In IFLA 2014 Lyon [cit.14.November 2014]. Dostupné na internete: http://library.ifla.org/1007/1/119-reilly-en.pdf

7   DAVIDSON, J.,JONES, S.,MOLLOY,L.: Big data: the potential role of research data management and research data registries. In: IFLA 2014 Lyon. [ cit. 14. November 2014]. Dostupné na internete: http://library.ifla.org/958/1/119-davidson-en.pdf

Share: