Metadáta v slovenských knižniciach

Zo Slovenska

Veľký rozvoj výpočtovej techniky a zvýšená produkcia elektronických informačných zdrojov spôsobili zvýšenú pozornosť
knihovníkov o tieto dokumenty so snahou zahrnúť ich do sféry bibliografickej kontroly. Súčasne však zaznamenávame zvýšený
záujem počítačových odborníkov o spôsoby vytvárania sekundárnych informácií o týchto zdrojoch v záujme uľahčenia prístupu k
nim.

Zmeny v spoločenskom a pracovnom živote, vyvolané používaním výpočtovej techniky, nás nútia dopĺňať si informácie o
nových informačných zdrojoch. Internet priniesol potrebu zavedenia “nového” typu v elektronických informačných zdrojoch –
metadáta. Metadáta definujeme ako dáta o dátach.

Metadáta sú vo svete knihovníctva názvom pre odkaz o informačnom zdroji, hlavne digitálnom zdroji. Rozdiel je v oblasti
informačných technológií, kde termín metadáta používame na popis dátových štruktúr a databázových systémov a kde sú metadáta
modely a systémy, konštruované pre integráciu rôznorodých databáz.


Prečo metadáta

Mnohí, aj špecialisti na metadáta, tvrdia, že metadáta sú v podstate ekvivalent bibliografického či katalogizačného
záznamu. V knižniciach je preto príkladom metadát katalogizačný záznam v klasickej alebo elektronickej podobe. Knižničný
katalóg je považovaný za metadátový systém vlastný knižniciam, ktorý obsahuje súbor metadátových záznamov s prvkami
popisujúcimi knižničný dokument: autor, názov, dátum jeho vytvorenia alebo publikovania, tematické pokrytie, lokačnú
informáciu spolu so signatúrou.

Iní to vyvracajú, tvrdiac, že metadáta nie sú určené na popis, ale na objavenie, zistenie v sieťovom prostredí, a teda
že katalogizácia či tvorba bibliografického záznamu nie je špeciálnym typom tvorby metadát.

Termín metadáta je výstižný na zvýraznenie veľkého rozdielu medzi udržiavaním katalógov kníh v tradičných knižniciach a
aktivitami, ktoré sa realizujú v záujme poskytnutia týchto katalógov prostredníctvom počítačových sietí. Reflektuje to zmenu
v katalogizácii, realizovanú vďaka rozvoju digitálnych technológií, ktorá by sa dala charakterizovať ako katalogizácia
digitálnym smerom. Metadáta používame na pomenovanie informácií o zdroji, ktorý nám umožní identifikovať, lokalizovať a
žiadať daný informačný zdroj. Metadáta nám tiež umožňujú manažovanie zdrojov (lokálny databázový manažment a manažment
prístupu – kontrola podmienok a termínov prístupu).

Metadáta môžu byť:

  • opisné dáta (autor, titul…),
  • subjektové dáta (kľúčové slová, opisy…),
  • prístupové dáta (opis HW a SW požiadaviek na použitie zdroja),
  • administratívne dáta (opis vlastných metadát – kedy a kým boli vytvorené…),
  • informácie o pravidlách a podmienkach použitia.

Metadáta sú určené primárne na vyhľadávanie a získavanie elektronických zdrojov (podľa ich autorov nie sú určené na
popis ani na podporu využitia alebo hodnotenia sieťových informácií) a napomáhajú najmä získavanie veľmi zložitých a
dynamických objektov tým, že strážia ich integritu.


Formáty metadát

Rozhodovanie o formátoch je do značnej miery ovplyvnené tým, ktoré z uvedených funkcií budú metadáta poskytovať. To
znamená, že pre jednoduché vyhľadávanie bude nutné vo vnútri systému definovať jednoduchý metadátový formát (akceptovateľný
aj pre požiadavky iných systémov) a pre zložité vyhľadávanie bude oslovený vybratý systém.

V súčasnosti najpoužívanejšia forma hľadania informácií je pomocou tzv. vyhľadávacej služby. Vyhľadávacie nástroje sú
kategorizované podľa zamerania, výberu typu odkazov a podľa metódy tvorby indexov. Počet vyhľadávacích služieb stále
rastie.

Metadáta majú však aj ďalšie funkcie – majú kľúčovú úlohu v oblasti integrácie a interoperability medzi jednotlivými
systémami pracujúcimi s rôznymi formátmi a aplikačnými protokolmi.

Väzba medzi metadátovým záznamom a zdrojom, ktorý popisuje, môže byť v zásade dvojaká:

  • metadátový záznam je uložený samostatne a oddelene od zdroja (napr. ako katalogizačné záznamy v knižnici),
  • metadáta sú tzv. vnorené priamo do samotného zdroja (napr. pomocou značiek pri dokumentoch v jazyku HTML, SGML a
    pod.).

Metadáta sú len novým názvom pre niečo, s čím sa v knižniciach pracuje od nepamäti. Prinášajú zmenu, ktorou je presun
katalogizačnej činnosti z knihovníka-katalogizátora na autora dokumentu. To je umožnené príchodom jednoduchých metadátových
štandardov, ktoré sú podstatne jednoduchšie ako knihovnícke katalogizačné štandardy. Vytvorenie štandardu však musí byť
podporené rozsiahlou paletou nástrojov, ktoré uľahčujú tvorbu, editáciu, zber, spracovanie a konverziu metadát.


Dublin Core

Ako najvážnejšia aktivita v oblasti interdisciplinárnych metadát je považovaná metadátová informačná štruktúra Dublin
Core Metadata Set (DCMES), vyvíjaná a podporovaná hlavnou agentúrou – Dublin Core Metadata Iniciative (DCMI). Dublin Core –
DC – vznikol ako výsledok spolupráce spoločnosti OCLC v spolupráci s NCSA (National Centre for Supercomputer Applications) na
seminári v Dubline (USA, štát Ohio) s cieľom dohodnúť sa na minimálnom univerzálnom popise informačného zdroja, ktorý by
mohol slúžiť všetkým skupinám používateľov v oblasti vytvárania, vyhľadávania i získavania elektronických zdrojov.

Dublin Core (DC) je súbor metadátových prvkov, ktorých úlohou je uľahčiť vyhľadávanie elektronických zdrojov. Pôvodne
bol vytvorený ako popis zdrojov na webe, zostavený priamo autormi webových stránok. Postupne zaujal inštitúcie zaoberajúce sa
formálnym spracovávaním zdrojov, ako sú knižnice, múzeá, vládne agentúry či komerčné organizácie. Štruktúra DC sa používa vo
vyše 20 štátoch Ameriky, Európy, Ázie a Austrálie. Medzinárodná akceptácia Dublin Core potvrdila potrebu použitia takéhoto
štandardu.


Pre elementy DC boli definované nasledujúce princípy:

  • rozšíriteľnosť (sada elementov môže byť doplnená o špecifické elementy /dáta/ – podľa potrieb producenta
    /výrobcu/),
  • voliteľnosť (použitie všetkých elementov je voliteľné),
  • opakovateľnosť (ľubovoľný element je ľubovoľne opakovateľný).

To znamená, že stránka nemusí mať použitých všetkých 15 elementov a element sa môže opakovať – napríklad ak má stránka
viac autorov.


Význam jednotlivých DC elementov môže byť modifikovateľný pomocou kvalifikátorov.

Existujú tri typy kvalifikátorov:

  • TYPE – spresňuje význam elementu;
  • SCHEME – indikuje, že hodnota elementu vyhovuje inej externej, globálnej schéme;
  • LANGUAGE – označuje jazyk obsahu elementu.

Každý element je definovaný pomocou 10 položiek štandardu ISO/IEC 11179, určeného na popis dátových elementov:

1. Meno (Name) – meno priradené dátovému elementu.

2. Identifikátor (Identifier) – jedinečný identifikátor priradený elementu.

3. Verzia (Version) – verzia elementu (súčasná = 1.1).

4. Registračná autorita (Registration Authority) – kto je registrátor a správca elementu (=Dublin Core Metadata
Initiativa).

5. Jazyk (Language) – jazyk, v ktorom je element špecifikovaný (= en /english/).

6. Definícia (Definition) – popis, ktorý jasne vymedzuje pojem a základnú charakteristiku elementu.

7. Povinnosť (Obligation) – indikuje potrebnosť elementu (či je výskyt elementu v popise zdroja povinný alebo
voliteľný) (= optio- nal).

8. Typ (Datatyp) – typ dát uložiteľných ako hodnota elementu (= character string).

9. Maximálny výskyt (Maximum Occurrence) – limit opakovateľnosti elementu (= non-limited).

10. Poznámka (Comment) – poznámky k elementu.


Elementy Dublin Core sú:

1. Názov (Title) – názov pridelený informačnému zdroju (formálne meno zdroja).

2. Autor (Creator) – autor obsahu zdroja (osoba, organizácia).

3. Predmet (Subject) – téma obsahu zdroja (aj kľúčové slová).

        Odporúča sa vyberať hodnotu elementu z riadeného slovníka.

4. Opis (Description) – opis obsahu zdroja alebo abstrakt.

5. Vydavateľ (Publisher) – vydavateľ zdroja (osoba, organizácia). Je zodpovedný za sprístupnenie zdroja.

6. Prispievateľ (Contributor) – spolupracujúci vydavateľ, prispievateľ k vytvoreniu obsahu zdroja (osoba, organizácia).

7. Dátum (Date) – dátum spojený s určitou udalosťou počas existencie zdroja (napr. vytvorenia, životnosti…).

        Odporúča sa vyberať hodnotu elementu z riadeného slovníka.

8. Typ (Type) – typ zdroja, popisujúci obecné kategórie, funkcie, druhy (udalosť, zbierka, obraz, text, zvuk,
softvér…).

        Odporúča sa používať definovaný formát.

9. Formát (Format) – formát zdroja (txt, pdf, jpg, doc…) alebo rozmery zdroja.

        Odporúča sa vyberať hodnotu elementu z riadeného slovníka.

10. Identifikátor (Identifier) – identifikátor zdroja, jednoznačný odkaz na zdroj v rámci daného kontextu (URL, URI,
DOI, ISBN).

11. Zdroj (Source) – pôvodný zdroj, z ktorého pochádza popisované dielo.

12. Jazyk (Language) – jazyk intelektuálneho obsahu zdroja.

        Odporúča sa používať definovaný formát.

13. Vzťah (Relation) – odkaz na príbuzné zdroje.

14. Pokrytie (Coverage) – rozsah alebo záber obsahu zdroja (geografické pokrytie, doba platnosti).

        Odporúča sa vyberať hodnotu elementu z riadeného slovníka.

15. Práva (Rights) – správa autorských práv, licenčná politika.

Podrobný opis jednotlivých elementov a odkazy na formáty obsahu elementov nájdete na [5].

Dublin Core sa ďalej spresňuje a rozvíja, má potrebnú personálnu i inštitucionálnu základňu. V auguste 2000 prebehlo
hlasovanie k návrhu prijať DC ako štandard Z39.85-200× The Dublin Core Metadata Element Set. Pripravujú sa rôzne nástroje na
prevod dát zo štandardu Dublin Core do formátu MARC, ktoré využívajú prvky DC v katalogizácii. Najďalej zatiaľ dospel projekt
Nordic Metadata vo vytvorení konvertoru dát, ktorý je schopný vytvárať záznamy vo formátoch MARC severských krajín a USMARC
zo zdrojových údajov DC.

Od júna 2000 je v prevádzke nová služba OCLC – Cooperative Resource Catalog (CORC). Ide o nástroj pre automatickú
katalogizáciu elektronických zdrojov priamo na webe (vyhľadávanie, vytváranie a editácia záznamov), a to vo formátoch MARC a
DC, využívaný na medzinárodnej úrovni. Na jeho testovaní sa podieľalo viac ako 450 knižníc z celého sveta. Databáza vznikla
zo záznamov pôvodne uložených v bázach OCLC InterCat a NetFirst.

DC bol preložený aj do slovanských jazykov – ruštiny, ukrajinčiny, poľštiny i češtiny (Ústav výpočtovej techniky
Masarykovej univerzity v júni r. 2000 [6]). Na Slovensku sa mu zatiaľ venuje minimálna pozornosť.


Záver

Katalogizácia internetových zdrojov (a s ňou súvisiace otázky získavania, archivácie a sprístupňovania elektronických
zdrojov) vyžaduje obrovské množstvo pracovných kapacít knihovníkov aj odborníkov z oblasti informačných technológií. Riešiť
túto problematiku môžeme až vtedy, keď si odpovieme na otázku, či knižnice majú vôbec katalogizovať internet [2].

Je niekoľko argumentov, ktoré hovoria proti:

  • Na internete existuje obrovské množstvo materiálov; toto množstvo je ďaleko väčšie, s akým sa doteraz knižnice pri
    katalogizovaní mohli stretnúť. Rýchlosť nárastu publikovaných materiálov je závratná.
  • Vlastnosti dokumentov na internete (zlá organizácia, rôzna kvalita a stabilita) znamenajú obrovské potenciálne
    pracovné zaťaženie, ak by sa mal knižničný katalóg udržiavať.
  • Veľa z nich, ak by existovali v papierovej forme, by knižnice neuchovávali.
  • Dokumenty publikované na internete sú natoľko nestabilné, že sa nedajú efektívne katalogizovať.
  • Katalogizovanie internetu možno nie je úlohou knižníc. Komerčný sektor môže zabezpečiť prístup k materiálom na
    internete prostredníctvom indexovania tak, ako je tomu v prípade periodických článkov.
  • Je možné, že vo vývoji počítačových vyhľadávacích technológií nastane prevratný zlom, ktorý odstráni potrebu
    katalogizácie alebo indexovania.

Na druhej strane zas existujú argumenty, ktoré hovoria pre katalogizáciu internetu:

  • Na internete existuje obrovské množstvo užitočných informácií.
  • Je potrebné zabezpečiť jednoduchší prístup k týmto zdrojom prostredníctvom ich organizovania.
  • Knižniční pracovníci majú know-how, potrebné schopnosti a skúsenosti pre túto prácu.
  • Rešerše uskutočnené s využitím katalógov sa javia ako presnejšie. Internet sa stal predmetom verejného záujmu.
    Prostredníctvom pridanej hodnoty, ktorou katalogizácia internetu nesporne je, možno do knižníc pritiahnuť viac
    používateľov.


Biliografické odkazy:

1. Androvič, Alojz: Identifikátory informačných prameňov. Bratislava : CVTI SR, 2000. 151 s. ISBN 80-85165-81-3.

2. Böhm-Klein, Karol. 2001. Katalogizácia elektronických zdrojov na Internete.
www.bomo.sk/files/roc3/katalogizaciaez.html

3. Celbová, Ludmila. 2001. Katalogizace elektronických zdrojů na Internetu: proč, co a jak?
http://ikaros.ff.cuni.cz/2001/c02/katalogizace.htm

4. DC-dot,
www.ukoln.ac.uk/metadata/dcdot/

5. Dublin Core Metadata Initiative,
http://dublincore.org

6. Dublin Core Czech,
www.ics.muni.cz/dublin_core/index.html

7. Hudec, Ivan – Ukropová, Daniela – Paločková, Eva: Digitálne knižnice : príručka kurzu dištančného vzdelávania.
Košice : Technická univerzita v Košiciach, 2000. 153 s. ISBN 80-7099-591-2.

8. International Federation of Library Associations: DIGITAL LIBRARIES: Metadata Resources,
http://www.ifla.org/II/metadata.htm

9. Nordic Metadata Project DC Metadata Viewer,
http://www.lub.lu.se/dc/nmd_viewer.pl

10. Sedláčková, Lýdia. 2000. Súborný katalóg a metadátové univerzum.
http://www.snk.sk/kniznica/2_2001/sta_1.html

11. Ukoln Metadata Software Tools,
http://www.ukoln.ac.uk/metadata/software-tools/

Zdieľať: