Info mailom

Chcete pravidelne dostávať informácie o novinkách?

Web-archive made in Slovakia. Pilotný projekt zberu a archivácie elektronických informačných prameňov

Autori: Alojz Androvič; Martin Bella; Katarína Kinčíková
Číslo: 3/2006 - E-zdroje v knižniciach
Rubrika: Zo Slovenska
Kľúčové slová:


WWW kultúrne dedičstvo

Webové elektronické informačné pramene (e-IP) sú čoraz rozsiahlejšou a významnejšou súčasťou kultúrneho dedičstva krajiny. Ich prudko narastajúci objem sa dnes odhaduje na stovky terabytov, pričom ich typickou črtou je široká paleta typov v závislosti od ich pôvodu, účelu, životného cyklu či formy a spôsobu implementácie. Výzvou pre každý štát, ktorý pristupuje k archivácii webu (či už celoplošne alebo výberovo), je riešenie komplexných problémov zberu, spracovania, sprístupňovania a dlhodobého uchovávania webových e-IP.  Sem patria najmä:

  • legislatívne a inštitucionálne podmienky na zhromažďovanie, kopírovanie, ochranu a sprístupňovanie e-IP;
  • stratégie a východiská rozsahu a frekvencie zberu, resp. výberu e-IP vo vzťahu k ich formálnym a obsahovým vlastnostiam;
  • zabezpečenie trvalého prístupu a dostupnosti dokumentov;
  • zabezpečenie dlhodobého uchovania vrátane kontroly kvality a prípadnej migrácie vyvolanej technologickými podmienkami.

Štáty, ktoré sa v súčasnosti už archivácii webu venujú, zvolili rôzne prístupy. Zber celej domény prebieha napríklad vo Švédsku v rámci projektu Kulturarw3  [http://www.kb.se/kw3/], Fínsku EVA [http://www.lib.helsinki.fi/eva/english.html]  a pravdaže v rámci najambicióznejšieho projektu s koreňmi v Amerike – Internet Archive [http://www.archive.org], ktorý si dáva za cieľ zozbierať celý web. Celodoménový alebo celkový prístup zahŕňa kolekciu webových stránok a online zdrojov, ktoré sa získavajú automaticky pomocou špeciálnych žatevných programov (harvester) v celej šírke priestoru národného webu. Austrália – PANDORA [http://pandora.nla.gov.au] – zvolila selektívny prístup, čo znamená archiváciu definovaných častí webu alebo druhov zdrojov podľa špecifických kritérií. Tematický zber ako iná forma selektívnej archivácie sa zameriava na zber a ochranu webového obsahu vzťahujúceho sa na určitú udalosť, tematiku, reprezentuje ho čiastočne aj projekt USA – MINERVA [http://lcweb2.loc.gov/cocoon/minerva/html/minerva-home.html]. Kombinovaný prístup si vybralo Francúzsko a Dánsko – Netarchive.de [http://netarchive.dk/index-en.php]. V takomto prípade sa dosiahne optimálne pokrytie zdrojov na webe za použitia techník celodoménového, výberového a tematického zberu. Roku 2004 sa v Amsterdame založila nezisková organizácia Web Archive, ktorá ponúka európskym kultúrnym inštitúciám archiváciu webu formou outsourcingu, buduje a sprístupňuje otvorený, verejne prístupný archív a zameriava sa na doménové žatvy a dlhodobé uchovávanie webových e-IP. Na tento účel investovala do veľkokapacitného úložiska digitálnych objektov (200 Terabyte) [http://europarchive.org].  

CULTURE 2000

Univerzitná knižnica v Bratislave reagovala v roku 2005 na výzvu európskeho grantového programu CULTURE 2000 a prijala od Národní knihovny Českej republiky (NK ČR) ponuku na účasť na jednoročnom projekte Web Cultural Heritage [http://www.webarchiv.cz/culture-2000/]. Jeho cieľom je vypracovanie metodiky, no najmä návrh kritérií a pravidiel na výber webových dokumentov vhodných a potrebných na uchovávanie a ochranu. Hlavným riešiteľom je NK ČR, ďalšími riešiteľmi sú Estónska národná knižnica, Národná a univerzitná knižnica v Ľubľane  a pridruženými partnermi sú Moravská zemská knižnica v Brne, Fakulta informatiky Masarykovej univerzity v Brne a Inštitút Jožefa Stefana v Ľubľane.

Slovensko sa doteraz archiváciou webu nezaoberalo. Účasťou v    projekte Web Cultural Heritage Univerzitná knižnica v Bratislave začala zbierať skúsenosti z tejto oblasti a spustila skúšobný zber vybraných slovenských stránok. Najväčším prínosom je aktívna spolupráca s kolegami z ČR – Národnou knižnicou, Moravskou zemskou knižnicou a Fakultou informatiky Masarykovej univerzity. V Českej republike začali s výberovým (selektívnym) zberom webu v roku 2000, každý rok prebehne zároveň celodoménový zber. Spoluprácou s českými kolegami získavame prehľad o najdôležitejších činnostiach spojených s oboma typmi zberov. Koordinácia činností od oslovenia tvorcov stránok cez vyjednanie dohôd a získanie súhlasu na zber, ale hlavne následné sprístupnenie archívu, nastavenie technických parametrov v závislosti od daností stránky, zabezpečenie indexácie a spracovania zozbieraného kultúrneho dedičstva vyžaduje spoluprácu viacerých ľudí a oddelení nielen v rámci inštitúcie.

Kvantitatívna a kvalitatívna analýza prvotného testovacieho zberu v rámci Slovenska napomôžu lepšie poznať slovenský web a stanoviť presnejšie výberové kritériá. Na základe toho sa pristúpi k charakteristikám základných kvantitatívnych a kvalitatívnych čŕt webových stránok s národnou doménou .sk. To umožní získať aspoň čiastočnú predstavu o veľkosti a rozsahu slovenského webu, o životnosti stránok, frekvencii zmien vykonávaných na stránkach. Jedným z vedľajších produktov môže byť v prípade identifikovaných webov (s prideleným ISSN) aj neskoršie vytvorenie odporúčaní pre vydavateľov, ktoré zabezpečia bezproblémový zber, správu a spätné sprístupnenie archivovaných dokumentov v ich pôvodnom tvare.

Slovenská národná doména

Doterajšia predbežná identifikácia slovenského webu ukázala nasledujúce skutočnosti. Zo štatistických sledovaní dokážeme zistiť napr. rozdelenie držiteľov domén podľa právnej formy (situácia v máji 2006 je zobrazená na grafe 1 Počet domén podľa právnej formy).

andr1.gif (24130 bytes)
Graf 1 Počet domén podľa právnej formy

 

V rámci slovenskej národnej domény .sk je funkčných približne 92-tisíc domén druhej úrovne. Užívateľov, ktorí majú registrované domény, je 46 961. Na jedného užívateľa teda pripadajú približne 2 domény (stav z mája 2006).    Približné obsahové zameranie stránok domény .sk je uvedené na grafe 2 Tematické oblasti. Vychádzali sme z triedení Konspekt, MDT a tematických skupín slovenského vyhľadávacieho nástroja, prehľadávali sme doménu .sk.

andr2.gif (26073 bytes)
Graf 2 Tematické oblasti

Pilotná žatva

Pilotnú žatvu – prvý testovací zber vybraných slovenských elektronických zdrojov spustila Univerzitná knižnica v Bratislave začiatkom apríla 2006. Tým sa zaradila medzi knižnice v Európe, Severnej Amerike, východnej Ázii a Austrálii, ktoré sa zaoberajú archiváciou elektronických zdrojov, ich ochranou a zabezpečením dlhodobého prístupu. Nezamerali sme sa  na zber celej národnej domény .sk, ale iba na weby, ktoré majú pridelené ISSN. Z registra ISSN vyplýva,    že na internete je v rámci slovenského webu 260 pokračujúcich zdrojov (stav z mája 2006), ktoré majú pridelené číslo ISSN. Z toho je 164 titulov čisto elektronických.

Cieľom bolo zozbierať a analyzovať identifikované  webové e-IP a vypracovať základný prehľad o možnostiach zberu slovenského webu na vzorke vybraných stránok. Do mája bolo z celkového zadaného počtu 191 stiahnutých 99 webov, zber po etapách pokračuje.

Projekt archivácie vybraných webov je riešený na takomto pomerne skromnom hardvérovom vybavení:

  • počítač s procesorom Intel Pentium 4 3.0 GHz a 2 GB pamäte RAM;
  • 100 Mbit linka spájajúca Univerzitnú knižnicu s internetom.

Softvérová časť je celá postavená na open-source technológiách. Základ tvorí Debian GNU/Linux v testovacej verzii Etch. Na sťahovanie existujú rôzne nástroje. V tomto projekte bol použitý Heritrix [http://crawler.archive.org], ktorý je vyvíjaný primárne organizáciou The Internet Archive [http://www.archive.org] v spolupráci s ostatnými členmi IIPC [http://www.netpreserve.org]. Je určený aj pre také rozsiahle zbery, ako je zber národných domén. Medzi jeho hlavné výhody oproti iným nástrojom patrí modulárnosť a rozšíriteľnosť, no naďalej sa stále vyvíja a zdokonaľuje.

Na indexovanie a rekonštrukciu stiahnutých webov slúži NutchWAX [http://archiveaccess.sourceforge.net/projects/nutch/]   a Wera [http://archive-access.sourceforge.net/projects/wera/]. Tieto nástroje boli nainštalované iba na experimentálne účely a na skutočné sprístupňovanie sa zatiaľ nevyužívajú.

Sťahované elektronické zdroje sú veľké od 45 KB až po 5,3 GB a obsahujú od 6 do 180 004 objektov. Celkovo bolo stiahnutých 34,5 GB dát, čo predstavuje 1 320 416 html stránok, obrázkov, multimediálnych súborov atď.

Autori použili celkovo 69 unikátnych MIME typov. Priemerný web zaberá 357 MB pri 13 214 dokumentoch a priemerný objekt je veľký približne 28 KB. Tabuľka 1 uvádza prehľad o tom, aké formáty slovenskí vydavatelia používajú najčastejšie.

Asi najväčším prekvapením je obrovský náskok HTML pred ostatnými formátmi. Mohlo by to byť spôsobené tým, že tieto weby sa skladajú prevažne z článkov. Každý článok sa nachádza na osobitnej adrese, ale menu, ozdobné prvky a reklamné bannery ostávajú rovnaké. Ďalším dôvodom by mohla byť snaha o odľahčený dizajn, ktorý sa vytvára prevažne z kaskádových štýlov. Podiel dokumentov typu CSS je dosť vysoký – približne 24 na web. Približne rovnaký je aj počet flashových animácií, ktoré sa využívajú prevažne ako reklamné pútače. Výnimkou boli portály gamesweb.sk a nefrologia.sk, kde sa využívajú predovšetkým ako zábavné animované prezentácie alebo hry.

V súboji obrázkov jednoznačne vyhráva JPEG pred formátom GIF a PNG. BMP sa na internete veľmi nevyužíva a počet týchto animácií bol zanedbateľný. Iné formáty sa nevyskytli vôbec.

andr3.gif (43576 bytes)
  Tab. 1 Najpoužívanejšie formáty

Tabuľka ukazuje aj to, že formát PDF je u vydavateľov veľmi obľúbený. Používajú ho väčšinou na zverejnenie seriálov online. Jeho konkurent PS sa vyskytuje veľmi zriedkavo. V prospech PDF hovorí aj to, že tieto súbory umožňujú navigáciu vo vnútri dokumentu, dokážu sa odkazovať aj na externé zdroje, dovoľujú tvorbu slajdov, ktoré sú podobné slajdom od spoločnosti Microsoft, a dnes veľké množstvo programov dokáže výsledky do tohto formátu exportovať. V súčasnosti je potrebný prehliadač nainštalovaný na takmer každom osobnom počítači.

ZIP je jednoznačne najvyužívanejší z archivačných formátov. Vo veľmi malom množstve sa vyskytol už iba RAR.

Slovenskí vydavatelia používajú všetky tri základné formáty kancelárskeho balíka Office od Microsoftu, hoci powerpointových prezentácií a excelovských tabuliek bolo pomerne málo. Je trochu prekvapujúce, že sa neobjavil ani jeden dokument typu OpenDocument [http://www.oasisopen.org/committees/tc_home.php?wg_abbrev=office], ktorý bol v máji uznaný ako ISO norma. Vytvárať dokumenty v tomto formáte dokážu napríklad novšie verzie kancelárskeho balíka OpenOffice.org a podporu už ohlásil aj Microsoft. V budúcnosti bude teda zaujímavé sledovať, či jeho popularita porastie.

Multimédiá na celkovom počte súborov neboli veľmi zastúpené. Bolo stiahnutých spolu 518 súborov, čo je 0,04 % z celku. Ich podiel na celkovom množstve stiahnutých dát sa však z 559 MB vyšplhal na 1,59 %. Tabuľka 2 uvádza, aké multimediálne formáty a v akom množstve používajú slovenskí vydavatelia.

andr4.gif (34314 bytes)
  Tab. 2 Multimediálne formáty

Dosť vysoký bol aj podiel javascriptových programov. No až prekvapujúco nízky bol počet RSS kanálov – iba 8, pričom túto technológiu využívajú iba štyria vydavatelia. Vzhľadom na charakter webov by sa dalo očakávať omnoho vyššie číslo.

Štatistika zastúpenia jednotlivých formátov na celkovom objeme dát nejaké prekvapenia nepriniesla. Nižší podiel hlavne pri formátoch HTML a GIF a vyšší u PDF, PS a multimediálnych súboroch sa dal očakávať. Nasledujúce grafy (graf 3, 4) ukazujú rozdelenie elektronických zdrojov podľa počtu objektov a podľa veľkosti.

Pri grafe rozdelenia podľa veľkosti boli rozsahy volené podľa údajov prvého grafu a podľa poznatku, že priemerný dokument zaberá 28 KB. Spolu dokazujú, že existuje priama úmernosť medzi počtom objektov a veľkosťou webu. Na druhej strane existujú aj výnimky. Mnohé akademické weby obsahujú síce iba niekoľko HTML, ale väčšie množstvo PDF dokumentov, vďaka čomu dosť narastú. Nájsť nejakú definíciu toho, aké weby sa v jednotlivých kategóriách nachádzajú, je asi nemožné.

Dokumenty z externých zdrojov využívajú takmer všetky weby. Vo všeobecnosti to môžu byť napríklad obrázky, programy, multimédiá, PDF dokumenty a podobne a je diskutabilné, čo je pre zber dôležité. V našom prípade Heritrix vôbec nemal nastavené pravidlá prísne a sťahoval všetko. Nakoniec bolo stiahnutých 78 978 dokumentov z externých zdrojov a zaberali spolu 2 629 MB. Znamená to teda, že asi 6 % z celkového počtu objektov a 7,44 % z celkového objemu dát tvoria práve externé zdroje.

Vo väčšine prípadov to boli obrázky poskytované marketingovými spoločnosťami a súbory vo formáte no-type, ktoré slúžia na získanie štatistík napríklad o počte prístupov na dané stránky. Vypracovať presné štatistiky je až príliš zložité. Medzi najodkazovanejšie zdroje patria point.sk, billboard.cz, naj.sk, toplist.cz, macromedia.com a icq.com.

Záverom

Prvý zber slovenských elektronických zdrojov priniesol niektoré zaujímavé čísla. Bohužiaľ, nič podobné tu zatiaľ neexistuje, a preto ich nemáme s čím porovnať. Budeme sledovať rôzne trendy, hlavne ako tieto zdroje rastú, podiel jednotlivých typov dokumentov, ale aj nasadzovanie moderných technológií.

Prax odhalila niektoré vážne problémy. Najviac starostí robia tzv. pasce. Sú to miesta, kde sťahovaný server pod rôznou URL generuje stránky s rovnakým obsahom. Príkladom môže byť archív správ, kde je na každej stránke odkaz na predchádzajúci deň. Tento odkaz však bude aj tam, kde už žiadne správy nie sú a server bude pri sťahovaní generovať stále nové stránky s novým odkazom na predchádzajúci deň.

Ďalší zber by však mal byť jednoduchší, pretože sa počas testu odladili a uložili pravidlá pre každý problematický web a pred zberom bude stačiť skontrolovať, či nevznikli nové pasce, a existujúce pravidlá aplikovať. Celý proces sa teda bude dať viac automatizovať. Napriek tomu bude stále nad programom zberu musieť stáť človek, ktorý ho bude kontrolovať.

Projekt Web Cultural Heritage by sa mal uzavrieť na jeseň t. r. a prezentovať odbornej komunite na špeciálnom seminári v rámci Európskej konferencie o digitálnych knižniciach (ECDL 2006). Doterajšie skúsenosti nám dovoľujú formulovať nasledujúce strategické ciele v oblasti správy a uchovávania pô-

vodných elektronických informačných prameňov online a WWW – novej formy nehmotného kultúrneho dedičstva:

  • vybudovať systém na zber, spracovanie, sprístupňovanie a archiváciu povinného výtlačku pôvodných elektronických prameňov publikovaných online. Dobudovať IKT infraštruktúru v dvoch depozitných knižniciach SNK a UKB;
  • iniciovať zmeny v legislatíve na zabezpečenie podmienok starostlivosti o elektronické informačné pramene a publikácie sprístupňované online. Začleniť elektronické informačné pramene a ich správu do portfólia zákonom dotknutých médií. Maximálne uplatniť prípustné výnimky EÚ na prístup k tomuto druhu dokumentov. Novelizovať v tomto zmysle zákon o povinnom výtlačku, tlačový zákon, autorský zákon;
  • vypracovať metodiku vrátane kritérií výberu e-prameňov na dlhodobú archiváciu. Pri výbere a archivácii elektronických pokračujúcich prameňov nadviazať na činnosť Národnej agentúry ISSN, ktorá identifikuje a spracováva záznamy elektronických online prameňov na pokračovanie;
  • vytvoriť organizačné a technické podmienky na pravidelný zber a archiváciu informačného obsahu publikovaného v rámci národných internetových domén – povinný depozit a web-archív;
  • zriadiť v UKB kompetenčné centrum vrátane zabezpečenia technických podmienok na rozvoj metód a experimentov v oblasti správy a archivácie pôvodných elektronických prameňov sprístupňovaných online. Uskutočňovanie experimentov v archivácii elektronických prameňov v rámci domácich i zahraničných projektov s cieľom pripraviť podmienky na praktickú archiváciu elektronických publikácií v SR;
  • vytvoriť organizačné a administratívne podmienky na koordináciu, deľbu práce a kooperáciu pamäťových inštitúcií, vydavateľov a nositeľov autorských práv na trvalom uchovávaní pôvodných elektronických prameňov.

andr5.gif (34530 bytes)
Graf 3 E-zdroje podľa počtu objektov

 

andr6.gif (32239 bytes)
Graf 4 E-zdroje podľa veľkosti

Sme presvedčení, že získané poznatky a skúsenosti prispejú k návrhu nových  stratégií, plánov a konkrétnych projektov na riadne a rutinné zabezpečenie zberu a archivácie webových elektronických informačných prameňov – národného Web-archívu, ako aj k vytvoreniu legislatívnych, organizačných a technických podmienok na zabezpečenie tejto náročnej a veľmi aktuálnej úlohy. Univerzitná knižnica v Bratislave, verme, bude na to organizačne a odborne pripravená a, dúfajme, aj primerane a dostatočne technicky a technologicky vybavená.

Tlačiť Facebook Twitter LinkdeIN

Hodnotenie

Počet hodnotení: 0

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License

Ak sa neuvádza inak, obsah článkov podlieha licencii https://creativecommons.org/licenses/by/4.0/


ISSN 1336-0779 (online vydanie)  ISSN 1335-793X (tlačené vydanie)
© Centrum vedecko - technických informácií SR