Internet a digitálne knižnice
Zo zahraničia
Hoci internet ako taký existuje už zhruba 30 rokov, až vytvorenie a rozšírenie WWW technológií začiatkom 90. rokov
podporilo explozívny nárast globálneho elektronického informačného bohatstva a predovšetkým jeho sprístupnenie širokým
vrstvám používateľov. Ruka v ruke s obrovským rastom objemu digitálnych údajov dostupných na internete prebiehal a prebieha
aj vývoj nových technológií na efektívne vyhľadávanie a získavanie požadovaných informácií. Prvým prielomom na tomto poli
boli
vyhľadávacie stroje (search engines), ktoré za pomoci automatizovaných nástrojov – robotov – prehľadávajú pavučinu
svetového webu a údaje o všetkých nájdených dokumentoch ukladajú do obrovských lokálnych databáz umožňujúcich na základe
vyhľadávania kľúčových slov v textoch dokumentov vyhľadať a aj lokalizovať dokumenty požadované používateľom. Od prvých
vyhľadávacích strojov (Alta Vista 1995) po dnešok zaznamenali technológie vyhľadávačov výrazný pokrok, ktorý umožňuje
rozšíriť hranice viditeľného webu (začleňovaním čoraz širšieho repertoára plnotextovo indexovaných dátových formátov),
zlepšiť kvalitu vyhľadávania (lepšou identifikáciou relevantných dokumentov) a ponúknuť širšiu škálu poskytovaných služieb
(personifikácia, automatizovaný preklad a mnohé ďalšie). Dnešné vyhľadávacie nástroje sú skvelými pomocníkmi pre tzv.
“first-shop“ vyhľadávanie – rýchle nájdenie prvotnej informácie na takmer akúkoľvek tému. Medzi ich hlavné prednosti patrí
vysoké pokrytie internetu (Google v súčasnosti indexuje viac ako 3 miliardy dokumentov), jednoduchosť použitia, dostupnosť
komukoľvek a kdekoľvek, rýchlosť vyhľadávania a tiež relatívne slušná aktuálnosť informácií o dokumentoch na neustále sa
meniacom internete (lokálna databáza vyhľadávacích strojov sa automaticky permanentne aktualizuje; robotom špičkových
vyhľadávacích strojov trvá prehľadanie celého viditeľného webu iba niekoľko mesiacov, pričom údaje o dokumentoch na
vytipovaných dôležitých serveroch sa aktualizujú hoci aj denne).
Napriek svojim nesporným prednostiam a širokej obľúbenosti majú vyhľadávacie stroje i rad závažných slabín
vyplývajúcich paradoxne z ich najväčších predností – plne automatizovaného spracovania: pri vyhľadávaní poskytujú síce veľkú
úplnosť (nájdu veľkú časť všetkých celkovo jestvujúcich relevantných dokumentov), ale súčasne i malú presnosť (vo výslednej
množine vyhľadaných dokumentov je množstvo balastu a tie skutočne relevantné dokumenty tvoria vo výsledku len veľmi malú
časť), nie sú dobré na vyhľadávanie typu “viem iba rámcovo, čo chcem, ale nepoznám žiadne detaily“ (napr. hľadám aktuálny
dôveryhodný a kvalitný prehľad o stave v oblasti digitálnych knižníc), nevedia rozpoznať kvalitné zdroje od nekvalitných, nie
sú schopné riešiť otázky autentickosti dokumentov, zaručiť ich dlhodobú dostupnosť ani ochranu autorských a vlastníckych
práv.
Ďalším typom nástrojov na vyhľadávanie informácií na internete sú
predmetové katalógy (directories) – celosvetovo medzi najznámejšie patrí Yahoo.com, v Čechách a na Slovensku napríklad
služba Zoznam (
www.seznam.cz, resp.
www.zoznam.sk). Na rozdiel od vyhľadávacích strojov sa v nich na primárne nájdenie, popis
a hodnotenie informačných zdrojov využíva predovšetkým “ručná“ práca kvalifikovaných pracovníkov – editorov. Tí sami (hoci s
použitím mnohých automatizovaných nástrojov a prípadne aj siete externých spolupracovníkov) vyhľadávajú nové zdroje na
internete, popisujú ich, hodnotia ich kvalitu a predovšetkým kvalifikujú do hierarchického predmetového katalógu. Týmto
postupom možno eliminovať niektoré slabé miesta vyhľadávacích strojov – najmä čo sa týka presnosti vyhľadávania, kvality
odkazovaných zdrojov, možnosti tematického vyhľadávania prechádzaním predmetového katalógu i sprístupnenia niektorých zdrojov
tých častí internetu, ktoré sú pre roboty neviditeľné. Problémom je výrazne menšie pokrytie internetového priestoru
(predmetové katalógy bežne obsahujú informácie o stovkách tisícov dokumentov oproti miliardám v prípade vyhľadávacích
strojov), menšia aktuálnosť údajov, veľká prácnosť. Rad služieb na internete prepája vyhľadávacie stroje s predmetovými
katalógmi, aby tak získali výhody obidvoch technológií a eliminovali nevýhody každej z nich. Ani tieto
hybridné vyhľadávacie nástroje nie sú však schopné riešiť problémy vyplývajúce z toho, že nemajú vôbec žiadnu kontrolu
nad primárnymi dokumentmi, medzi ktoré patrí dlhodobá dostupnosť, autentickosť, ochrana práv, ako aj špecializované
vyhľadávacie mechanizmy a služby pre špecializované komunity používateľov.
Špeciálny druh predmetových katalógov predstavujú
virtuálne knižnice, čo sú predmetové katalógy špecializované na určitý druh dokumentov a slúžiace určitej špecifickej
komunite používateľov. Podobne ako už spomenuté typy vyhľadávacích nástrojov nevlastnia však žiadne primárne dokumenty
(odtiaľ “virtuálne“ knižnice) a ponúkajú iba sekundárne informácie o dokumentoch na internete; vďaka svojej špecializovanosti
môžu však i pri pomerne malej databáze dosiahnuť lepšie pokrytie daného výseku internetu, než je bežné u všeobecných
predmetových katalógov, a tiež vyššiu kvalitu zdrojov i poskytovaných služieb. Príkladom môžu byť virtuálne knižnice pre
knihovníkov – Librarian’s Index to the Internet [1] či Internet Public Library [2].
Principiálne odlišnú technológiu oproti vyhľadávacím strojom, predmetovým katalógom a virtuálnym knižniciam predstavujú
digitálne knižnice (digital libraries). Predovšetkým tým, že digitálne informačné zdroje nielen vyhľadávajú a
sprístupňujú, ale predovšetkým taktiež vlastnia, spravujú a udržiavajú. Na digitálne knižnice môžeme pozerať z jednej strany
(knihovníckej) ako na ďalší evolučný krok vo vývoji tradičných knižníc – od klasickej “papierovej“ knižnice (primárne i
sekundárne informácie sú v analógovej podobe) cez hybridné knižnice (primárne informácie prevažne analógové, sekundárne
informácie v automatizovanej digitálnej podobe) až po knižnice digitálne (všetky informačné zdroje a služby iba v digitálnej
podobe). Máloktorá tradičná knižnica je však dnes schopná prejsť do plne digitálnej podoby – na to sú knižničné zbierky
príliš rozsiahle a digitalizačné procesy príliš prácne a nákladné. Typicky je preto v súčasnosti digitálna knižnica
predstavovaná a vytváraná skôr zo strany odborníkov na informačné technológie, ktorí sa pri tvorbe novej generácie svojich
informačných systémov inšpirujú postupmi z oblasti knižníc a s knihovníkmi často úzko spolupracujú. Prednosťou digitálnych
knižníc je vlastníctvo primárnych dokumentov, z čoho vyplýva i možnosť garantovať kvalitu, autentickosť, individuálne
sprístupňovanie dokumentov podľa špecifických podmienok a výrazne vyššia presnosť pri vyhľadávaní. Nevýhodou digitálnych
knižníc je zatiaľ ich malé rozšírenie, rôznorodosť, neexistencia jednotných štandardov a podpornej globálnej infraštruktúry,
ktorá by umožnila prepájanie a spoluprácu digitálnych knižníc medzi sebou.
Čo je to digitálna knižnica
Predovšetkým je nutné zdôrazniť, že nie každá množina digitálnych dát sama osebe predstavuje digitálnu knižnicu. I keď
existujú desiatky rôznych “definícií“ na tému, čo je a nie je digitálna knižnica, ktoré často akcentujú rôzne aspekty a
pohľady, mnohé prvky majú všetky tieto charakteristiky spoločné:
základom každej digitálnej knižnice je
zbierka dokumentov (v digitálnej podobe); pojem “zbierka“ naznačuje jednu dôležitú vlastnosť, a to, že materiály pre
digitálnu knižnicu nie sú vyberané a zaraďované náhodne, ale prostredníctvom vhodného kvalifikovaného sprostredkovateľa,
konajúceho v záujme a podľa potrieb určitej
špecifickej komunity používateľov. Táto zbierka musí byť aj zodpovedajúcim spôsobom
spravovaná a tiež dlhodobo udržiavaná (čo je záležitosť nielen prevádzková a technologická, ale aj ekonomická –
základom je nájdenie vhodného ekonomického modelu zabezpečujúceho dlhodobú životaschopnosť digitálnej knižnice a súčasne i
jej ekonomickú dostupnosť pre používateľa). Nad danou zbierkou musí existovať množina garantovaných kvalifikovaných
služieb pokrývajúcich potreby a záujmy
všetkých subjektov – prevádzkovateľov digitálnej knižnice, používateľov, autorov a vlastníkov práv.
Popri týchto praktických a vecných charakteristikách, už bežne predpokladaných u digitálnych knižníc súčasnosti, sú
zatiaľ skôr v rovine výskumno-vývojovej riešené ďalšie všeobecné požiadavky, ktoré by mali byť štandardnou súčasťou funkčných
a zmysluplných digitálnych knižníc blízkej budúcnosti:
-
univerzálnosť – schopnosť efektívne uchovávať, spravovať a sprístupňovať jednotným spôsobom akýkoľvek druh, formát a
médium digitálnych informácií (text, zvuk, obraz, video, hypertextové, multimediálne a dynamické dokumenty), -
škálovateľnosť – použiteľnosť systému digitálnej knižnice pre akýkoľvek objem dát a akýkoľvek zložito štruktúrovaný
systém knižníc, -
interoperabilita – schopnosť vzájomnej spolupráce medzi organi-
začne nezávislými a technologicky rôznorodými systémami digitálnych knižníc.
Cieľom snaženia a vízií výskumníkov je digitálna knižnica nie iba ako nejaký izolovaný systém jednej inštitúcie, ale
ako dynamický prepojený systém desaťtisícov čiastkových digitálnych knižníc, ktoré sú síce samostatne a nezávisle spravované,
ale súčasne sú dokopy integrované tak, že z pohľadu používateľa tvoria
jednotný systém. Súčasný trend vo výskume a budovaní pokročilých digitálnych knižníc smeruje od experimentovania s
vytváraním čiastkových digitálnych zbierok k návrhu a budovaniu globálnej podpornej infraštruktúry, ktorá by umožňovala ľahké
a efektívne prepájanie systémov digitálnych knižníc podobne, ako dnešný internet umožňuje prepájanie a spoluprácu čiastkových
počítačových/komunikačných sietí.
Typy digitálnych knižníc
Na internete dnes existuje veľké množstvo zaujímavých digitálnych knižníc. Z pohľadu spôsobu tvorby digitálnej zbierky
ich môžeme rozdeliť do troch kategógií:
1. digitalizované digitálne knižnice
obsahujú digitálne objekty vytvorené digitalizáciou fyzických artefaktov, a to napríklad skenovaním textových alebo
obrazových predlôh. Tento typ digitálnych knižníc vzniká najčastejšie s cieľom lepšie sprístupniť zaujímavé, vzácne či
ťažko dostupné fyzické zbierky (napríklad rukopisy). Digitálna forma umožňuje nielen efektívnu a časovo i priestorovo
neobmedzenú prezentáciu pôvodných dokumentov, ale je možné ju využiť i na vytváranie nových typov prezentácií, ktoré u
fyzických artefaktov nie sú možné – napríklad vytváranie virtuálnych zbierok alebo združovanie rôznych materiálov do
multimediálnych a hypertextových prezentácií. Ako príklad digitalizovaných digitálnych knižníc spomeňme American Memory [3]
(Kongresová knižnica USA), JSTOR [4] (University of Michigan, JSTOR Mellonova nadácia) či Memoriae Mundi Series Bohemica
[5] (Národná knižnica ČR) ako súčasť širšieho programu Pamäť sveta [6] (UNESCO);
2. born-digital digitálne knižnice
obsahujú materiál, ktorý vznikol už priamo v digitálnej podobe – a často existuje iba a len v digitálnej podobe, bez
akejkoľvek fyzickej predlohy. Tento typ digitálnych knižníc vzniká s cieľom existujúce digitálne materiály systematicky
usporiadať, vytvoriť podmienky na jeho uchovanie a potom aj sprístupnenie. V miniatúrnej podobe s obdobným problémom zápasí
napríklad hociktorý majiteľ digitálneho fotoaparátu. Veľmi často sa s daným typom digitálnych knižníc stretávame v oblasti
vedy a vedeckého publikovania; pripomeňme preprintový systém ArXiv.org [7] vytvorený pre efektívnu kooperatívnu spoluprácu
vedeckých článkov alebo digitálnej knižnice vedeckých časopisov významných svetových nakladateľov, ako sú LINK [8]
(Springer), ScienceDirect [9] (Elsevier) či Idealibrary [10] (Academic Press). Významné kolekcie čisto digitálnych
informácií vznikajú v oblasti kozmického výskumu (potreba spracovať a sprístupniť obrovský tok informácií prúdiacich z
vesmírnych družíc), jadrového výskumu (spracovanie dát z jadrových urýchľovačov), ale hoci aj medicíny (napríklad MeDiMed –
neverejná brnianska metropolitná digitálna knižnica archivujúca a sprístupňujúca pre potreby lekárskej operatívnej práce i
výskumu obrazové dáta z vyšetrení na rôznych typoch lekárskych diagnostických zariadení);
3. zberné digitálne knižnice
získavajú svoje materiály z internetu prostredníctvom ich automatizovaného zberu (harvesting). Často tieto knižnice
vznikajú s cieľom zabezpečiť dlhodobú dostupnosť či archiváciu digitálneho materiálu, ktorý by inak mohol čoskoro zaniknúť.
Príkladom tohto typu digitálnych knižníc je Internet Archive [11], usilujúci o kompletnú archiváciu celého webu. Mnohé
národné pamäťové inštitúcie realizujú obdobné digitálne knižnice s cieľom uchovať pre budúce generácie digitálne národné
kultúrne dedičstvo – z našich končín pripomeňme projekt WebArchiv [12] Národnej knižnice ČR. Problémom zberných digitálnych
knižníc je vysporiadanie autorských a vlastníckych práv ako základnej podmienky na sprístupnenie. Na druhej strane
predstavujú vhodné spojenie dvoch odlišných technológií (vyhľadávacích strojov so zbernými robotmi na strane jednej a
knihovníckych postupov na strane druhej) s potenciálne veľkými perspektívami. Výskum v tejto oblasti reprezentuje
predovšetkým projekt WebBase [13] Stanfordskej univerzity. Zaujímavým podvariantom je tiež Iniciatíva Otvorených Archívov
OAI [14] (Open Archive Iniciative), ktorá sa usiluje zlepšiť pomocou jednoduchých a ľahko implementovateľných princípov
interoperabilitu rôznych digitálnych knižníc, dostupnosť informácií o čiastkových digitálnych zbierkach a súčasne aj
presnosť pri ich vyhľadávaní.
Príklady digitálnych knižníc
Ako už bolo naznačené skôr, existuje dnes veľké množstvo zaujímavých a užitočných digitálnych knižníc – na mnohé z nich
odkazujú napríklad zoznamy [15],[16],[17]. Za všetky spomeňme na záver aspoň štyri digitálne knižnice patriace medzi tie
najúspešnejšie.
American Memory
(
http://memory.loc.gov/)
Je voľne dostupná digitalizovaná digitálna knižnica Kongresovej knižnice USA. Vznikla v druhej polovici 90. rokov s
cieľom sprístupniť najmä pre potreby výučby na všetkých typoch škôl najzaujímavejšie dokumenty z americkej histórie. Vo viac
než stovke samostatných digitálnych zbierok sprístupňuje dnes okolo 7 miliónov artefaktov vybraných z historických zbierok –
fotografií, obrazov, listov, rukopisov, textov, vzácnych kníh, máp, zvukových nahrávok, filmov, ale aj ďalších typov
materiálov. Okrem vlastného obsahu priniesol tento projekt (označovaný vzhľadom na svoj rozsah a náročnosť niekedy tiež ako
“digitalizačný Apollo-projekt“) i rad prepracovaných digitalizačných štandardov a postupov využívaných v mnohých ďalších
projektoch a digitálnych knižniciach. Prevádzka a rozvoj digitálnej knižnice sú financované Kongresovou knižnicou a z
grantov.
JSTOR
(
http://www.jstor.org/)
Je uzavrená (dostupná iba na základe predplatného) digitalizovaná digitálna knižnica archívnych čísiel časopisov z
oblasti spoločenských vied, vytváraná a prevádzkovaná otvoreným nezárobkovým združením vysokých škôl a knižníc JSTOR (Journal
Storage) za podpory Mellonovej nadácie; združenie má v súčasnosti viac ako 1 600 členov. Prvotným cieľom bolo zdigitalizovať
“zlaté časopisecké jadro“ americkej humanitnej vedy – teda tých časopisov, ktoré vlastní prakticky každá akademická
(americká) knižnica – a pomôcť tak knižniciam riešiť problémy s úložným priestorom pre archívne čísla, s neúplnosťou zbierok
(história väčšiny časopisov predstavuje desiatky až stovky rokov), rastúcimi nákladmi na údržbu a ochranu starých fondov a
taktiež s efektívnym sprístupnením archívnych fondov používateľom. Ekonomický model bol vymyslený tak, aby na jednej strane
umožnil celý systém dlhodobo prevádzkovať a ďalej rozvíjať a aby na druhej strane bol pre členov združenia finančne výhodný.
Vzhľadom na dohodu s vydavateľmi o tom, že nie sú prístupné najaktuálnejšie čísla časopisov (digitalizuje sa vždy od prvého
čísla prvého ročníka až po dohodnutú pohyblivú hranicu, stanovenú pre každý časopis zvlášť – v priemere 3 – 5 posledných
rokov), neplatia sa žiadne poplatky vydavateľom. Všetky príjmy z predplatného idú teda výhradne iba na prevádzku systému a
ďalšiu priebežnú digitalizáciu; mesačne sa vzhľadom na posun pohyblivej hranice digitalizuje niekoľko stoviek tisícov strán
staronových čísiel časopisov (každá strana sa uchováva jednak v podobe obrázku na poskytnutie originálneho vzhľadu, jednak sa
cez OCR systémy prevádza do textovej podoby s cieľom umožniť fulltextové vyhľadávanie). Pôvodná zbierka označovaná dnes ako
Arts & Sciences I Collection (obsahujúca 117 základných časopisov s celkovo takmer 8 000 ročníkmi jednotlivých čísiel) sa
postupne dopĺňa ďalšími zbierkami – Arts & Science II, Business, Ecology & Botany, General Science, Language &
Literature, Music Collection. Celkový objem dát v digitálnej knižnici, reprezentujúcich 12 miliónov strán z 322 časopisov, sa
pohybuje v ráde TeraBytov.
Internet Archive
(
http://www.archive.org/)
Je to otvorená zberná digitálna knižnica, vytváraná a prevádzkovaná neziskovou organizáciou Internet Archive s cieľom
vybudovať archívnu “internetovú knižnicu“ umožňujúcu trvalý prístup k historickým vrstvám internetu. Od roku 1996 sa za
pomoci automatizovaných zbieračov zbierajú webové stránky z internetu a ukladajú sa do digitálnej knižnice (obsahujúcej dnes
okolo 10 miliárd WWW stránok, predstavujúcich vyšej 150 TB dát!). Pomocou tzv. WayBackMachine je možné zobraziť, ako vyzerala
WWW stránka s udaným URL v určitom okamžiku v minulosti. Do budúcnosti sa plánuje i fulltexové vyhľadávanie v histórii
internetu.
ICDL – International Children’s Digital Library
Ide o projekt otvorenej digitalizovanej knižnice špecializovanej na svetovú detskú literatúru, ktorý realizuje
univerzita Maryland
a spoločnosť Internet Archive. Päťročný projekt je financovaný
z grantu amerického programu Digital Library Initiative [19] a spolupracujúcich organizácií. Jeho cieľom je vytvoriť
digitálnu knižnicu obsahujúcu 10 000 vybraných detských kníh reprezentujúcich to najlepšie v oblasti detskej literatúry zo
stovky kultúr celého sveta (v súčasnosti už knižnica obsahuje prvých 200 knižných titulov v 15 jazykoch). Na vývoji
používateľského rozhrania spolupracuje interdisciplinárny tím počítačových odborníkov, knihovníkov, učiteľov a psychológov
spolu s deťmi, ktoré tvoria hlavnú cieľovú skupinu používateľov digitálnej knižnice.
Zdroje a odkazy:
[1] Librarian’s Index to the Internet.
http://lii.org/
[2] Internet Public Library.
http://www.ipl.org/
[3] American Memory.
http://memory.loc.gov/
[4] JSTOR.
http://www.jstor.org/
[5] Memoriae Mundi Series Bohemica.
http://digit.nkp.cz
[6] Memory of the World (UNESCO).
http://www.unesco.org/webworld/mdm/
[7] ArXiv.org.
http://archiv.org
[8] SpringerLINK (Springer-Verlag).
http://link.springer.de/
[9] ScienceDirect (Elsevier).
http://www.sciencedirect.com/
[10] Idealibrary (Academic Press).
http://www.idealibrary.com/
[11] Internet Archive.
http://www.archive.org/
[12] WebArchiv (Národní knihovna ČR).
http://www.webarchiv.cz/
[13] WebBase (Stanford University).
http://www-diglib.stanford.edu/~testbed/doc2/WebBase/
[14] Open Archives Initiative.
http://www.openarchives.org/
[15] UNESCO/IFLA Directory of Digitized Collections.
http://www.unesco.org/webworld/digicol/
[16] Berkeley Digital Library SunSITE.
http://sunsite.berkeley.edu/Collections/
[17] Digital Library Federation.Public Access Collections.
http://www.hti.umich.edu/cgi/b/bib/bib-idx?c=dlfcoll
[18] International Children’s Digital Library.
http://www.icdlbooks.org/
[19] Digital Library Initiative (NSF).
http://www.dli2.nsf.gov/