Web-archive made in Slovakia. Pilotný projekt zberu a archivácie elektronických informačných prameňov

Zo Slovenska


WWW kultúrne dedičstvo

Webové elektronické informačné pramene (e-IP) sú čoraz
rozsiahlejšou a významnejšou súčasťou kultúrneho dedičstva krajiny. Ich prudko
narastajúci objem sa dnes odhaduje na stovky terabytov, pričom ich typickou črtou je
široká paleta typov v závislosti od ich pôvodu, účelu, životného cyklu či formy a
spôsobu implementácie. Výzvou pre každý štát, ktorý pristupuje k archivácii webu
(či už celoplošne alebo výberovo), je riešenie komplexných problémov zberu,
spracovania, sprístupňovania a dlhodobého uchovávania webových e-IP.  Sem patria
najmä:

  • legislatívne a inštitucionálne podmienky na zhromažďovanie,
    kopírovanie, ochranu a sprístupňovanie e-IP;
  • stratégie a východiská rozsahu a frekvencie zberu, resp. výberu
    e-IP vo vzťahu k ich formálnym a obsahovým vlastnostiam;
  • zabezpečenie trvalého prístupu a dostupnosti dokumentov;
  • zabezpečenie dlhodobého uchovania vrátane kontroly kvality a
    prípadnej migrácie vyvolanej technologickými podmienkami.

Štáty, ktoré sa v súčasnosti už archivácii webu venujú,
zvolili rôzne prístupy. Zber celej domény prebieha napríklad vo Švédsku v rámci
projektu Kulturarw3  [http://www.kb.se/kw3/],
Fínsku EVA [http://www.lib.helsinki.fi/eva/english.html
a pravdaže v rámci najambicióznejšieho projektu s koreňmi v Amerike – Internet
Archive [http://www.archive.org], ktorý si dáva za
cieľ zozbierať celý web. Celodoménový alebo celkový prístup zahŕňa kolekciu
webových stránok a online zdrojov, ktoré sa získavajú automaticky pomocou
špeciálnych žatevných programov (harvester) v celej šírke priestoru národného
webu. Austrália – PANDORA [http://pandora.nla.gov.au]
– zvolila selektívny prístup, čo znamená archiváciu definovaných častí webu
alebo druhov zdrojov podľa špecifických kritérií. Tematický zber ako iná forma
selektívnej archivácie sa zameriava na zber a ochranu webového obsahu vzťahujúceho sa
na určitú udalosť, tematiku, reprezentuje ho čiastočne aj projekt USA – MINERVA
[http://lcweb2.loc.gov/cocoon/minerva/html/minerva-home.html].
Kombinovaný prístup si vybralo Francúzsko a Dánsko – Netarchive.de [http://netarchive.dk/index-en.php]. V takomto
prípade sa dosiahne optimálne pokrytie zdrojov na webe za použitia techník
celodoménového, výberového a tematického zberu. Roku 2004 sa v Amsterdame založila
nezisková organizácia Web Archive, ktorá ponúka európskym kultúrnym inštitúciám
archiváciu webu formou outsourcingu, buduje a sprístupňuje otvorený, verejne
prístupný archív a zameriava sa na doménové žatvy a dlhodobé uchovávanie webových
e-IP. Na tento účel investovala do veľkokapacitného úložiska digitálnych objektov
(200 Terabyte) [http://europarchive.org].  

CULTURE 2000

Univerzitná knižnica v Bratislave reagovala v roku 2005 na výzvu
európskeho grantového programu CULTURE 2000 a prijala od Národní knihovny Českej
republiky (NK ČR) ponuku na účasť na jednoročnom projekte Web Cultural Heritage [http://www.webarchiv.cz/culture-2000/].
Jeho cieľom je vypracovanie metodiky, no najmä návrh kritérií a pravidiel na výber
webových dokumentov vhodných a potrebných na uchovávanie a ochranu. Hlavným
riešiteľom je NK ČR, ďalšími riešiteľmi sú Estónska národná knižnica,
Národná a univerzitná knižnica v Ľubľane  a pridruženými partnermi sú
Moravská zemská knižnica v Brne, Fakulta informatiky Masarykovej univerzity v Brne a
Inštitút Jožefa Stefana v Ľubľane.

Slovensko sa doteraz archiváciou webu nezaoberalo. Účasťou v
   projekte Web Cultural Heritage Univerzitná knižnica v Bratislave začala
zbierať skúsenosti z tejto oblasti a spustila skúšobný zber vybraných slovenských
stránok. Najväčším prínosom je aktívna spolupráca s kolegami z ČR – Národnou
knižnicou, Moravskou zemskou knižnicou a Fakultou informatiky Masarykovej univerzity. V
Českej republike začali s výberovým (selektívnym) zberom webu v roku 2000, každý
rok prebehne zároveň celodoménový zber. Spoluprácou s českými kolegami získavame
prehľad o najdôležitejších činnostiach spojených s oboma typmi zberov. Koordinácia
činností od oslovenia tvorcov stránok cez vyjednanie dohôd a získanie súhlasu na
zber, ale hlavne následné sprístupnenie archívu, nastavenie technických parametrov v
závislosti od daností stránky, zabezpečenie indexácie a spracovania zozbieraného
kultúrneho dedičstva vyžaduje spoluprácu viacerých ľudí a oddelení nielen v rámci
inštitúcie.

Kvantitatívna a kvalitatívna analýza prvotného testovacieho
zberu v rámci Slovenska napomôžu lepšie poznať slovenský web a stanoviť presnejšie
výberové kritériá. Na základe toho sa pristúpi k charakteristikám základných
kvantitatívnych a kvalitatívnych čŕt webových stránok s národnou doménou .sk. To
umožní získať aspoň čiastočnú predstavu o veľkosti a rozsahu slovenského webu, o
životnosti stránok, frekvencii zmien vykonávaných na stránkach. Jedným z
vedľajších produktov môže byť v prípade identifikovaných webov (s prideleným
ISSN) aj neskoršie vytvorenie odporúčaní pre vydavateľov, ktoré zabezpečia
bezproblémový zber, správu a spätné sprístupnenie archivovaných dokumentov v ich
pôvodnom tvare.

Slovenská národná doména

Doterajšia predbežná identifikácia slovenského webu ukázala
nasledujúce skutočnosti. Zo štatistických sledovaní dokážeme zistiť napr.
rozdelenie držiteľov domén podľa právnej formy (situácia v máji 2006 je zobrazená
na grafe 1 Počet domén podľa právnej formy).

andr1.gif (24130 bytes)
Graf 1 Počet domén podľa právnej formy

 

V rámci slovenskej národnej domény .sk je funkčných približne
92-tisíc domén druhej úrovne. Užívateľov, ktorí majú registrované domény, je 46
961. Na jedného užívateľa teda pripadajú približne 2 domény (stav z mája 2006).
   Približné obsahové zameranie stránok domény .sk je uvedené na grafe 2
Tematické oblasti. Vychádzali sme z triedení Konspekt, MDT a tematických skupín
slovenského vyhľadávacieho nástroja, prehľadávali sme doménu .sk.

andr2.gif (26073 bytes)
Graf 2 Tematické oblasti

Pilotná žatva

Pilotnú žatvu – prvý testovací zber vybraných slovenských
elektronických zdrojov spustila Univerzitná knižnica v Bratislave začiatkom apríla
2006. Tým sa zaradila medzi knižnice v Európe, Severnej Amerike, východnej Ázii a
Austrálii, ktoré sa zaoberajú archiváciou elektronických zdrojov, ich ochranou a
zabezpečením dlhodobého prístupu. Nezamerali sme sa  na zber celej národnej
domény .sk, ale iba na weby, ktoré majú pridelené ISSN. Z registra ISSN vyplýva,
   že na internete je v rámci slovenského webu 260 pokračujúcich zdrojov
(stav z mája 2006), ktoré majú pridelené číslo ISSN. Z toho je 164 titulov čisto
elektronických.

Cieľom bolo zozbierať a analyzovať identifikované  webové
e-IP a vypracovať základný prehľad o možnostiach zberu slovenského webu na vzorke
vybraných stránok. Do mája bolo z celkového zadaného počtu 191 stiahnutých 99
webov, zber po etapách pokračuje.

Projekt archivácie vybraných webov je riešený na takomto pomerne
skromnom hardvérovom vybavení:

  • počítač s procesorom Intel Pentium 4 3.0 GHz a 2 GB pamäte RAM;
  • 100 Mbit linka spájajúca Univerzitnú knižnicu s internetom.

Softvérová časť je celá postavená na open-source
technológiách. Základ tvorí Debian GNU/Linux v testovacej verzii Etch. Na sťahovanie
existujú rôzne nástroje. V tomto projekte bol použitý Heritrix [http://crawler.archive.org], ktorý je vyvíjaný
primárne organizáciou The Internet Archive [http://www.archive.org]
v spolupráci s ostatnými členmi IIPC [http://www.netpreserve.org].
Je určený aj pre také rozsiahle zbery, ako je zber národných domén. Medzi jeho
hlavné výhody oproti iným nástrojom patrí modulárnosť a rozšíriteľnosť, no
naďalej sa stále vyvíja a zdokonaľuje.

Na indexovanie a rekonštrukciu stiahnutých webov slúži NutchWAX
[http://archiveaccess.sourceforge.net/projects/nutch/]
  a Wera [http://archive-access.sourceforge.net/projects/wera/].
Tieto nástroje boli nainštalované iba na experimentálne účely a na skutočné
sprístupňovanie sa zatiaľ nevyužívajú.

Sťahované elektronické zdroje sú veľké od 45 KB až po 5,3 GB
a obsahujú od 6 do 180 004 objektov. Celkovo bolo stiahnutých 34,5 GB dát, čo
predstavuje 1 320 416 html stránok, obrázkov, multimediálnych súborov atď.

Autori použili celkovo 69 unikátnych MIME typov. Priemerný web
zaberá 357 MB pri 13 214 dokumentoch a priemerný objekt je veľký približne 28 KB.
Tabuľka 1 uvádza prehľad o tom, aké formáty slovenskí vydavatelia používajú
najčastejšie.

Asi najväčším prekvapením je obrovský náskok HTML pred
ostatnými formátmi. Mohlo by to byť spôsobené tým, že tieto weby sa skladajú
prevažne z článkov. Každý článok sa nachádza na osobitnej adrese, ale menu,
ozdobné prvky a reklamné bannery ostávajú rovnaké. Ďalším dôvodom by mohla byť
snaha o odľahčený dizajn, ktorý sa vytvára prevažne z kaskádových štýlov. Podiel
dokumentov typu CSS je dosť vysoký – približne 24 na web. Približne rovnaký je aj
počet flashových animácií, ktoré sa využívajú prevažne ako reklamné pútače.
Výnimkou boli portály gamesweb.sk a nefrologia.sk, kde sa využívajú predovšetkým
ako zábavné animované prezentácie alebo hry.

V súboji obrázkov jednoznačne vyhráva JPEG pred formátom GIF a
PNG. BMP sa na internete veľmi nevyužíva a počet týchto animácií bol
zanedbateľný. Iné formáty sa nevyskytli vôbec.

andr3.gif (43576 bytes)
  Tab. 1 Najpoužívanejšie formáty

Tabuľka ukazuje aj to, že formát PDF je u vydavateľov veľmi
obľúbený. Používajú ho väčšinou na zverejnenie seriálov online. Jeho konkurent
PS sa vyskytuje veľmi zriedkavo. V prospech PDF hovorí aj to, že tieto súbory
umožňujú navigáciu vo vnútri dokumentu, dokážu sa odkazovať aj na externé zdroje,
dovoľujú tvorbu slajdov, ktoré sú podobné slajdom od spoločnosti Microsoft, a dnes
veľké množstvo programov dokáže výsledky do tohto formátu exportovať. V
súčasnosti je potrebný prehliadač nainštalovaný na takmer každom osobnom
počítači.

ZIP je jednoznačne najvyužívanejší z archivačných formátov.
Vo veľmi malom množstve sa vyskytol už iba RAR.

Slovenskí vydavatelia používajú všetky tri základné formáty
kancelárskeho balíka Office od Microsoftu, hoci powerpointových prezentácií a
excelovských tabuliek bolo pomerne málo. Je trochu prekvapujúce, že sa neobjavil ani
jeden dokument typu OpenDocument [http://www.oasisopen.org/committees/tc_home.php?wg_abbrev=office],
ktorý bol v máji uznaný ako ISO norma. Vytvárať dokumenty v tomto formáte dokážu
napríklad novšie verzie kancelárskeho balíka OpenOffice.org a podporu už ohlásil aj
Microsoft. V budúcnosti bude teda zaujímavé sledovať, či jeho popularita porastie.

Multimédiá na celkovom počte súborov neboli veľmi zastúpené.
Bolo stiahnutých spolu 518 súborov, čo je 0,04 % z celku. Ich podiel na celkovom
množstve stiahnutých dát sa však z 559 MB vyšplhal na 1,59 %. Tabuľka 2 uvádza,
aké multimediálne formáty a v akom množstve používajú slovenskí vydavatelia.

andr4.gif (34314 bytes)
  Tab. 2 Multimediálne formáty

Dosť vysoký bol aj podiel javascriptových programov. No až
prekvapujúco nízky bol počet RSS kanálov – iba 8, pričom túto technológiu
využívajú iba štyria vydavatelia. Vzhľadom na charakter webov by sa dalo očakávať
omnoho vyššie číslo.

Štatistika zastúpenia jednotlivých formátov na celkovom objeme
dát nejaké prekvapenia nepriniesla. Nižší podiel hlavne pri formátoch HTML a GIF a
vyšší u PDF, PS a multimediálnych súboroch sa dal očakávať. Nasledujúce grafy
(graf 3, 4) ukazujú rozdelenie elektronických zdrojov podľa počtu objektov a podľa
veľkosti.

Pri grafe rozdelenia podľa veľkosti boli rozsahy volené podľa
údajov prvého grafu a podľa poznatku, že priemerný dokument zaberá 28 KB. Spolu
dokazujú, že existuje priama úmernosť medzi počtom objektov a veľkosťou webu. Na
druhej strane existujú aj výnimky. Mnohé akademické weby obsahujú síce iba niekoľko
HTML, ale väčšie množstvo PDF dokumentov, vďaka čomu dosť narastú. Nájsť nejakú
definíciu toho, aké weby sa v jednotlivých kategóriách nachádzajú, je asi
nemožné.

Dokumenty z externých zdrojov využívajú takmer všetky weby. Vo
všeobecnosti to môžu byť napríklad obrázky, programy, multimédiá, PDF dokumenty a
podobne a je diskutabilné, čo je pre zber dôležité. V našom prípade Heritrix vôbec
nemal nastavené pravidlá prísne a sťahoval všetko. Nakoniec bolo stiahnutých 78 978
dokumentov z externých zdrojov a zaberali spolu 2 629 MB. Znamená to teda, že asi 6 % z
celkového počtu objektov a 7,44 % z celkového objemu dát tvoria práve externé
zdroje.

Vo väčšine prípadov to boli obrázky poskytované
marketingovými spoločnosťami a súbory vo formáte no-type, ktoré slúžia na
získanie štatistík napríklad o počte prístupov na dané stránky. Vypracovať
presné štatistiky je až príliš zložité. Medzi najodkazovanejšie zdroje patria
point.sk, billboard.cz, naj.sk, toplist.cz, macromedia.com a icq.com.

Záverom

Prvý zber slovenských elektronických zdrojov priniesol niektoré
zaujímavé čísla. Bohužiaľ, nič podobné tu zatiaľ neexistuje, a preto ich nemáme
s čím porovnať. Budeme sledovať rôzne trendy, hlavne ako tieto zdroje rastú, podiel
jednotlivých typov dokumentov, ale aj nasadzovanie moderných technológií.

Prax odhalila niektoré vážne problémy. Najviac starostí robia
tzv. pasce. Sú to miesta, kde sťahovaný server pod rôznou URL generuje stránky s
rovnakým obsahom. Príkladom môže byť archív správ, kde je na každej stránke odkaz
na predchádzajúci deň. Tento odkaz však bude aj tam, kde už žiadne správy nie sú a
server bude pri sťahovaní generovať stále nové stránky s novým odkazom na
predchádzajúci deň.

Ďalší zber by však mal byť jednoduchší, pretože sa počas
testu odladili a uložili pravidlá pre každý problematický web a pred zberom bude
stačiť skontrolovať, či nevznikli nové pasce, a existujúce pravidlá aplikovať.
Celý proces sa teda bude dať viac automatizovať. Napriek tomu bude stále nad programom
zberu musieť stáť človek, ktorý ho bude kontrolovať.

Projekt Web Cultural Heritage by sa mal uzavrieť na jeseň t. r. a
prezentovať odbornej komunite na špeciálnom seminári v rámci Európskej konferencie o
digitálnych knižniciach (ECDL 2006). Doterajšie skúsenosti nám dovoľujú formulovať
nasledujúce strategické ciele v oblasti správy a uchovávania pô-

vodných elektronických informačných prameňov online a WWW –
novej formy nehmotného kultúrneho dedičstva:

  • vybudovať systém na zber, spracovanie, sprístupňovanie a
    archiváciu povinného výtlačku pôvodných elektronických prameňov publikovaných
    online. Dobudovať IKT infraštruktúru v dvoch depozitných knižniciach SNK a UKB;
  • iniciovať zmeny v legislatíve na zabezpečenie podmienok
    starostlivosti o elektronické informačné pramene a publikácie sprístupňované
    online. Začleniť elektronické informačné pramene a ich správu do portfólia zákonom
    dotknutých médií. Maximálne uplatniť prípustné výnimky EÚ na prístup k tomuto
    druhu dokumentov. Novelizovať v tomto zmysle zákon o povinnom výtlačku, tlačový
    zákon, autorský zákon;
  • vypracovať metodiku vrátane kritérií výberu e-prameňov na
    dlhodobú archiváciu. Pri výbere a archivácii elektronických pokračujúcich prameňov
    nadviazať na činnosť Národnej agentúry ISSN, ktorá identifikuje a spracováva
    záznamy elektronických online prameňov na pokračovanie;
  • vytvoriť organizačné a technické podmienky na pravidelný zber a
    archiváciu informačného obsahu publikovaného v rámci národných internetových
    domén – povinný depozit a web-archív;
  • zriadiť v UKB kompetenčné centrum vrátane zabezpečenia
    technických podmienok na rozvoj metód a experimentov v oblasti správy a archivácie
    pôvodných elektronických prameňov sprístupňovaných online. Uskutočňovanie
    experimentov v archivácii elektronických prameňov v rámci domácich i zahraničných
    projektov s cieľom pripraviť podmienky na praktickú archiváciu elektronických
    publikácií v SR;
  • vytvoriť organizačné a administratívne podmienky na koordináciu,
    deľbu práce a kooperáciu pamäťových inštitúcií, vydavateľov a nositeľov
    autorských práv na trvalom uchovávaní pôvodných elektronických prameňov.

andr5.gif (34530 bytes)
Graf 3 E-zdroje podľa počtu objektov

 

andr6.gif (32239 bytes)
Graf 4 E-zdroje podľa veľkosti

Sme presvedčení, že získané poznatky a skúsenosti prispejú k
návrhu nových  stratégií, plánov a konkrétnych projektov na riadne a rutinné
zabezpečenie zberu a archivácie webových elektronických informačných prameňov –
národného Web-archívu, ako aj k vytvoreniu legislatívnych, organizačných a
technických podmienok na zabezpečenie tejto náročnej a veľmi aktuálnej úlohy.
Univerzitná knižnica v Bratislave, verme, bude na to organizačne a odborne pripravená
a, dúfajme, aj primerane a dostatočne technicky a technologicky vybavená.

Zdieľať:
Obsah čísla