Interoperabilita v storočí skratiek

From Slovakia

Štandardy, interoperabilita, formáty, kooperácia, dokumenty, objekty,
informatik, knihovník a ako to všetko spolu súvisí…

Zamyslenie na úvod

Je knihovníkom 21. storočia pani-knihovníčka s utiahnutým drdolom a silnými dioptriami medzi regálmi, alebo mladý, ničím nerozhoditeľný chalan-informatik v pohodlnom tričku za počítačom? Pomáha obyčajnému smrteľníkovi pri orientácii v množstve informácií a možností ich získavania knižnica alebo Google? Kto je vlastne dnes zodpovedný za poskytnutie prístupu k poznaniu vo všetkých jeho formách?

Knižnice sú len jednou časťou zo širokej ponuky pamäťových inštitúcií. Od nepamäti vznikali spolu s knižnicami i archívy, múzeá, galérie. A všetky tieto inštitúcie po celom svete nedovolili zabudnúť novým generáciám na skúsenosti, vedomosti, schopnosti, na životné podmienky svojich predkov. A nezadržateľne prišiel pokrok. Až svet (aj za výdatnej pomoci knižníc) pokročil k internetu. Ak sú predkami človeka opice a rôzne druhy rodu homo so správnou taktikou na prežitie, sú predkami internetu popri armáde so správnymi prostriedkami na výskum knižnice, archívy, múzeá a galérie?

Už dávno nestačí spolupráca medzi knižnicami. Už nestačí spolupráca medzi pamäťovými inštitúciami. Aby sa z internetu nestal tiger šabľozubý a z kamenných pamäťových inštitúcií mamut tesne pred dopadom meteoritu, musíme hľadať nové spôsoby “prežitia”.

Vydajme sa na cestu po časovej osi a skúsme sa dostať bližšie k novému rodu informačnej inštitúcie, kým nás všetkých nevytlačí nová, nečakaná a jednoznačne dokonalejšia forma prenosu a uchovávania informácií… Pretože vývoj nezastavíme. Napokon, prečo aj, keď my sami ho pomáhame posúvať dopredu.

Knihovníci veľmi rýchlo pochopili, že informácie musia určitým spôsobom triediť. Že ich musia vedieť poskytnúť. Že ich musia zároveň uchovať. Že musia vedieť komunikovať medzi sebou na čoraz väčšie vzdialenosti. Že sa jednoducho bez štandardov a noriem nezaobídu. Preskočím zopár storočí a zastavím sa až v dnešnej dobe internetu, kooperácie, interoperability a štandardov, ktoré opustili od knihovníckeho ponímania dokumentu a orientujú sa na objekty.

Knihovníckym štandardom je napríklad dobre známy formát MARC, využívajúci pravidlá popisu ISBD. Objavil sa dokonca v zozname najdôležitejších objavov minulého storočia. Time Magazine spomenul jeho kľúčovú úlohu pri organizácii zaznamenaného ľudského poznania. “Ako by základný systém, ktorý podporuje knižnice (od dôb katalogizačných lístkov až po automatizované záznamy), dosiahol dnešnú úroveň bez MARC-u?” (Abraham, 2003)

Knihovníci a vydavatelia zohrali zásadnú úlohu pri budovaní interoperabilných štandardov, ktoré sa využívajú pri architektúre známej pod názvom internetové protokoly – HTTP, WWW, ASCII a iné… Nastala doba internetu. A internet poskytuje ďalšie úžasné možnosti prenosu a prepájania dát a zároveň spôsobuje vrásky zarytým strážcom teraz už celosvetovej pamäte svojou nestálosťou, priam efemérnosťou. Lepšie povedané, elektronická forma informácií (nech už sú v konečnom dôsledku na akomkoľvek nosiči), dlhodobá udržateľnosť obsahu v elektronickej (digitálnej) forme, možnosť publikovania a preberania publikovaného širokými vrstvami, “nájditeľnosť strateného”, nové formy dokumentov, rýchly vývoj a zastarávanie technológií. Preto vznikli otázky a našťastie i nejaké odpovede a návrhy riešení, ako pracovať s dokumentmi a objektmi v ďalšom storočí. V storočí skratiek…

Skôr než sa vrhneme na dešifrovanie akronymov ako MODS, EAD, MARCXML, VRA, TEI, ONIX, METS alebo MADS, zahrejme sa niečím jednoduchším.

Metadáta

Pre knihovnícku obec bežne známa vec s jednoduchou definíciou: dáta o dátach (vlastne údaje o údajoch). Inak a o niečo širšie vyjadrené, metadáta sú vytvorené v záujme sprostredkovania (uľahčenia) činnosti. Metadáta sú umelo vytvorené ľudskou bytosťou. Neexistuje univerzálny metaúdaj, keďže sa vždy viaže k niečomu konkrétnemu a umožňuje nám pracovať s týmto zastúpením, nie vždy teda musíme “vlastniť” primárny prameň. Napríklad zemepisná dĺžka a šírka sú metadátami o planéte Zem. Sú vytvorené umelo – samotná Zem nemá na sebe žiadne čiary. No tieto metadáta sú potrebné pri určovaní miest na zemeguli, pre moreplavcov i geografov. Vo svete knižníc sú metadátami katalogizačné lístky, resp. katalogizačné záznamy. Týkajú sa informačných zdrojov, dokumentov. Dokumenty (knihy, časopisy) sú dnes najčastejšie popisované v niektorom konkrétnom formáte jazyka MARC. Hoci netvrdíme, že v MARC-u by nebolo možné popísať aj delovú guľu, predsa len by to bola výzva i pre samotného knihovníka-katalogizátora. A preto neknihovnícky svet začal pre popis už nie dokumentov, ale objektov (všetkých druhov a foriem) vytvárať ďalšie formáty. Napríklad tiež dosť dobre známy Dublin Core. Podrobnejšie sa však budeme venovať formátom MARC, Dublin Core, MODS a ďalším.

Značkovacie jazyky

Najskôr považujem za vhodné vžiť sa do sveta internetu a opustiť kamennú budovu knižnice, archívu, múzea, galérie či univerzity alebo výskumného centra…

Metajazykmi alebo umelými jazykmi, ktoré komunikujú vo svete WWW, sú generácie značkovacích jazykov SGML (Standard Generalized Markup Language), HTML (HyperText Markup Language) a najnovší prírastok XML (eXtensible Markup Language). Značkovací jazyk kombinuje text a informáciu o texte (metainformáciu). Metainformácia, napríklad o logickej štruktúre alebo spôsobe prezentácie textu, sa vyjadruje použitím značiek (markup), ktoré sú premiešané s primárnym textom. Termín “značka” je odvodený od tradičnej techniky “označkovania” rukopisu, to znamená pridania inštrukcií pre tlačiara na okraje rukopisu. Jazyk XML je určený na výmenu dát medzi aplikáciami a na publikovanie dokumentov. Umožňuje popísať štruktúru dokumentu z hľadiska vecného obsahu jednotlivých častí, nezaoberá sa vzhľadom dokumentu alebo jeho časti, nemá žiadne preddefinované značky – tagy, názvy jednotlivých elementov. Pôvodný jazyk na publikovanie, HTML, už prestal vyhovovať predovšetkým kvôli svojej zložitosti, ktorá vznikla jeho postupným (a svojvoľným) rozširovaním.

XML je pilierom súčasných štandardov a formátov na popis objektov. Umožňuje zobrazovanie záznamov či dokumentov podľa potrieb, schopností a znalostí konečného používateľa.

Schémy, štandardy, formáty – to sú označenia pre produkty slúžiace na popis, správu a prístup k digitálnym objektom. Označujú aj pravidlá samotného popisu či pravidlá prenosu a vzájomnej komunikácie metadát medzi systémami. Dešifrovanie skratiek začneme popisnými formátmi. A keďže všetko so všetkým súvisí, upozorňujem vopred, že účel použitia jednotlivých formátov (dnes mnohých už vo funkcii štandardov) nie je obmedzený len na popis alebo iba transfer (prenos) metadát.

Popisné formáty (metadáta)

MARC som už spomínala ako knihovnícky štandard na popis dokumentov. Vytvorili ho knihovníci ako primárny popisný nástroj na tvorbu metadát pre knihy v OPAC-och. V súčasnosti väčšina knižníc prechádza či už pracuje v jeho aktuálnej verzii MARC21. Pamäť sveta (hmotnú i nehmotnú, tlačenú, zdigitalizovanú či pôvodne digitálnu) však uchovávajú aj iné inštitúcie a organizácie. Majú svoje spôsoby, vyvinuli vlastné štandardy, prichádzajú na rôzne súvislosti. Samotný internet zmenil prístup k ponímaniu, sprostredkovaniu a chápaniu primárnych a sekundárnych prameňov, nehovoriach o formách, ktoré digitálny a elektronický svet ponúka. Vznikla potreba spojiť svet knihovníkov a informatikov. Svet knihovníkov v rámci tvorby metadát totiž reprezentuje MARC (MARC21).

Svet informatikov odpovedal vytvorením pravidiel Dublin Core. V čase svojho vzniku a zadefinovania (roky 1995 – 1998) bola úspešnosť vyhľadávania na webe nedostačujúca. Google sa ešte naplno neprejavil, existujúce internetové vyhľadávacie stroje neboli dostatočne sofistikované, neindexovali mnohé webové stránky a následne neposkytovali kompletný a vždy správne zoradený zoznam výsledkov vyhľadávania. OCLC (Online Computer Library Center) sa preto rozhodla vytvoriť “MARC pre web”. Samotný MARC je pre neknihovníkov absolútne nezrozumiteľný, primárne určený na popis tradičných dokumentov. Preto vznikol čo najjednoduchší a flexibilný štandard Dublin Core, ktorý boli schopní včleniť do svojich stránok i laici. MARC používa na označenie polí číselné kódy, Dublin Core má slovné vyjadrenie. Systém mal umožniť vyhľadávanie webových stránok za pomoci metadát vytvorených čiastočne automaticky systémom a čiastočne samotným autorom stránky či webového dokumentu. Značkovacím jazykom bolo spočiatku ešte HTML, dnes už je trendom a potrebou používať XML (Beall, 2004).

No nastali dva problémy a vývoj popisných formátov išiel nezadržateľne ďalej. Jednoduchosť, pôvodná silná stránka štandardu Dublin Core, sa stala zároveň jeho slabinou. Príliš zložitý MARC má na informáciu o autorovi určených viacero polí – napr. 100, 110, 111, 700, 710, 711 atď. Dublin Core využíva jedno pole – Creator. Druhým problémom je konvertovanie. Pretože presun z ktoréhokoľvek iného systému do Dublin Core spôsobuje stratu dát, naopak pri konverzii z Dublin Core do iných formátov vznikali problémy s priradením dát do správnych polí. Dublin Core teda prišiel s kvalifikátormi a rozdelil sa na jednoduchý a kvalifikovaný Dublin Core. Jednoduchý Dublin Core tvorí 15 prvkov, pričom žiaden z nich nie je povinný. Kvalifikovaný Dublin Core ponúka navyše tri ďalšie prvky – Audience, Provenance, Rights Holder – a súčasne skupinu kvalifikátorov, ktoré zjemňujú sémantiku prvkov spôsobmi, ktoré sú pre vyhľadávanie zdrojov prínosné. Kvalifikovaný Dublin Core tiež obsahuje súbor odporúčaných kódovacích schém, ktoré pomáhajú pri interpretácii hodnoty prvku. Tieto schémy obsahujú riadené slovníky a pravidlá, napr. na vyjadrenie dátumu je stanovené štandardné zobrazenie vo forme 2006-12-31 (Dublin Core).

Medzitým však začali knižnice hľadať zlatú strednú cestu medzi štandardmi MARC a Dublin Core, až v Kongresovej knižnici kombináciou všetkého dobrého a vhodného z týchto dvoch štandardov vznikol MODS (Metadata Object Description Framework). Čiastočným zachovaním bohatosti marcovských prvkov a nahradením syntaxe jazykom XML a tagmi na báze Dublin Core umožňuje MODS bohatý popis zdrojov kompatibilný s obrovským množstvom bibliografických záznamov v knižničných systémoch. Navyše – ako XML popisný štandard – umožňuje kombinovanie s inými štandardmi založenými na báze XML (napr. METS), čím uspokojí aj potreby digitálnych knižníc (Guenther, 2004). A má vlastnú schému pre autority – MADS (Metadata Authority Description Schema).

Všetky tri formáty sú navzájom konvertovateľné. Kvôli čo najmenším stratám bol navyše vytvorený medzistupeň na konverziu z MARC do MODS – a to MARCXML.

To boli tri základné (univerzálne) popisné formáty pre klasické dokumenty a digitálne objekty, ktoré vo svojich projektoch využívajú prevažne knižnice. Existuje však množstvo ďalších, špecializovaných. Spomeniem a veľmi stručne predstavím len niektoré z nich, ako je EAD, CSDGM, IMS-MD, LOM, MASTER, MEI, TEI, VRA, a určite niekde v tejto chvíli vzniká vylepšená verzia niektorého spomenutého formátu alebo nový, lepší a pre daný konkrétny projekt vhodnejší hybrid existujúcich formátov…

Knižnice sme vyčerpali štandardmi MARC21, MARCXML, Dublin Core, MODS. Pre archívy, ktoré tiež čiastočne využívajú či využívali na popis MARC, Dublin Core a MODS, je vzhľadom na špecifickosť archívnych zbierok vytvorený EAD (Encoded Archival Description). Kódovaný archívny popis je vytvorený samozrejme v XML, je kompatibilný s ISAD(G), medzinárodným štandardom pre archívny popis. Umožňuje viacúrovňový popis potrebný pri archívnych zbierkach, všetky dáta sú konvertovateľné a vymeniteľné, je možné čerpať z existujúcich záznamov vo formáte MARC i Dublin Core. Schémou vyvinutou špeciálne na popis stredovekých rukopisov je MASTER DTD. Prvky používané v MASTER popise sú inšpirované ďalším štandardom z oblasti humanitných a spoločenských vied TEI HDR (Text Encoding Initiative Header). Vo svojej podstate je TEI (platené) konzorcium inštitúcií, ktoré vytvárajú štandardy na reprezentáciu textu v digitálnej forme. Odporúčané kvalifikátory pre múzeá ponúka VRA Core (Visual Resources Association – Core Metadata Standard). Metadáta pre oblasť vzdelávania hľadajte medzi LOM (Learning Object Metadata) alebo IMS-MD (IMS Metadata). Metadáta pre notový záznam nájdete u MEI (Music Encoding Initiative). Audiovizuálne objekty majú LC-AV (Library of Congress Audiovisual Metadata). Pre oblasť geografie je pomôckou CSDGM (Content Standards for Digital Geospatial Metadata). Ako vidíme, spomínané asociácie a iniciatívy vytvorili svoje vlastné DTD (Document Type Definition), teda značkovacie jazyky, ktorých účelom je zadefinovať a predpísať konštrukciu XML dokumentu, to znamená jeho štruktúru a prvky. Komerčná oblasť, ktorú reprezentujú vydavatelia a distribútori kníh, má svoj vlastný formát na popis – ONIX (ONline Information eXchange).

Administratívne a technické formáty (metadáta)

Na prácu s digitálnym dokumentom nestačí iba popis jeho obsahu. Potrebujeme formáty určené špeciálne na správu digitálneho dokumentu. Tieto nám umožňujú pomenovať aj administratívne a technické metadáta definované pre jednotlivé digitálne objekty, hoci sa údaje môžu čiastočne prelínať. Pri zdigitalizovaní vzniká z daného objektu väčšinou obrazový dokument, preto môžeme využiť napríklad formáty DIG35 a MIX. DIG35, formát International Imaging Industry Association priraďuje administratívne metadáta. Sú to informácie o veľkosti obrázku, dátume jeho vytvorenia, použitom hardvéri a softvéri. Na druhej strane schémou pre technické údaje o vzniknutých obrazových dokumentoch je formát MIX (NISO Metadata for Images in XML Schema). Oba formáty slúžia na uľahčenie interoperability medzi systémami, službami a softvérmi, ako aj na podporu dlhodobej správy kolekcií digitálnych obrazov a samotný nepretržitý prístup k nim (Stehno – Egger – Retti, 2003; Yee – Beaubien, 2004).

Výmena a prenos metadát

Doteraz som spomínala, čo všetko a kam môžeme o digitálnom dokumente zapísať. Stále však ide o čiastkové informácie, hoci pre potreby inštitúcie môžu postačovať. Ak však chceme fondy sprístupňovať aj mimo inštitúcie, potrebujeme ešte čosi navyše. Potrebujeme niečo, čo nám dovolí metadáta nielen spojiť do jedného dokumentu, ale ich medzi systémami aj vymieňať a prenášať. Potrebujeme METS (Metadata Encoding and Transmission Standard).

kincik.jpg (91901 bytes)

Dokument formátovaný podľa štandardu METS sa skladá zo siedmich častí. Hlavička obsahuje administratívne informácie o METS dokumente ako takom, teda kto a kedy ho vytvoril, kto a kedy ho upravil atď. Sekcia popisných metadát môže obsahovať metadáta vložené priamo v METS dokumente a/alebo odkazovať na externý zdroj. Sekcia administratívnych metadát poskytuje informácie o jednotlivých objektoch, o právach na ich sprístupnenie a šírenie, o pôvodnom objekte, ktorý bol vzorom pre digitalizáciu a podobne. Tak ako pri popisných metadátach, informácie môžu byť vložené priamo v METS dokumente a/alebo uvedené prostredníctvom odkazu na externý zdroj. Sekcia súborov obsahuje zoznam všetkých fyzických súborov, z ktorých sa skladá popisovaný objekt alebo objekty, a zároveň ich umiestnenie. Sekcia štrukturálnej mapy, ktorá je kľúčovou a povinnou časťou každého METS záznamu, zachytáva hierarchickú štruktúru a väzby medzi súbormi, objektmi a metadátami. Sekcia štrukturálnych odkazov, ktoré umožňujú odkazovať medzi jednotlivými uzlami štrukturálnej mapy, je veľkou výhodou hlavne pri zachytení štruktúry zložitejších štruktúr, napríklad pri archivácii webových stránok. Sekciu pravidiel správania možno využiť na definíciu akcií alebo udalostí, ktoré majú nastať pri manipulácii s časťami METS dokumentu (Vojnar, 2005).

Samotný METS formát nedefinuje jednotlivé schémy na popis jednotlivých druhov metadát. Preto môžeme siahnuť po už uvedených popisných, administratívnych či technických formátoch a pripojiť, pribaliť ich k METS dokumentu priamo (wrap) alebo prostredníctvom odkazu na externý dokument (reference). METS povoľuje na tieto účely použiť externé štandardy. Teda práve MODS, MARC, Dublin Core a ostatné…

METS vo svojej podstate drží digitálny objekt “pokope”. Tak ako väzba knihy spája jednotlivé strany, METS spája jednotlivé digitálne súbory, udržuje štruktúru komplexného digitálneho objektu. Navyše, na rozdiel od knihy, zachytáva aj popisné, administratívne či technické informácie o digitálnom dokumente.

A ešte aspoň jednu skratku na záver. Tak ako môžeme z viacerých formátov vyberať pri popisných formátoch, máme alternatívu aj pri prenose metadát. To, čo je pre knižnice METS, je pre oblasť vzdelávania IMS-CP (IMS content package) (Yee – Beaubien, 2004).

Časová os

Ponúknutú časovú os berte s miernou rezervou, keďže od myšlienky k vytvoreniu formátu prešlo častokrát zopár rokov. Jednotlivé formáty sa stále vyvíjajú, vznikajú nové verzie. Napriek tomu vidieť, že všetko so všetkým súvisí.

Zamyslenie na záver

Zámerom príspevku bolo aspoň trochu sprehľadniť svet formátov a štandardov pre digitálne objekty – pôvodné alebo zdigitalizované. Pevne verím, že sa to aspoň z časti podarilo.

Možno sa vám zdá, že pojmy štandard, formát, jazyk, schéma sa v príspevku prelínajú. Máte pravdu. Záleží na uhle pohľadu. Tak ako sa z niektorých skutočných udalostí stali príhody, z príhod legendy, z legiend mýty, tak sa z jazykov stali formáty, z formátov štandardy…

Ak vám chýbali ešte ďalšie skratky ako OAI-PMH (Open Archives Iniciative – Protocol for Metadata Harvesting) a OAIS (Open Archival Information System), PREMIS (Preservation Metadata: Implementation Strategy), DOI (Digital Object Identifier), CC (Creative Commons) či ODRL (Open Digital Rights Language), tiež vám musím dať za pravdu. Problematiku ochrany, trvalého zabezpečenia prístupu, správy autorských práv som naznačila len okrajovo, vlastne som ju v príspevku nahlas ani nepomenovala. Pretože to už by bol možno ďalší príbeh.

 

Bibliografické odkazy a použitá literatúra:

ABRAHAM, Stephen, 2003. Why should I care about standards? In Information Outlook, roč. 7, č. 3, 2003, s. 21. BEALL, Jeffrey, 2004. Dublin Core: An Obituary. In Library Hi Tech News, roč. 21, č. 8, 2004, s. 40-41.

COYLE, Karen, 2004a. Metadata: Data with a purpose [online], [cit. 17. 1. 2007]. Dostupné na: <www.kcoyle.net/meta_purpose.html>

COYLE, Karen, 2004b. MODS. In Computers in Libraries, roč. 24, č. 2, 2004, s. 21.

CUNDIFF, Morgan V. 2004. An introduction to the Metadata Encoding and Transmission Standard (METS). In Library Hi Tech, roč. 22, č. 1, 2004, s. 52-64.

GUENTHER, Rebecca S. – McCALLUM, Sally H. 2003. New Metadata Standards for Digital Resources: MODS and METS. In Bulletin of the American Society for Information Science and Technology, roč. 29, č. 2, 2003, s. 12-15.

GUENTHER, Rebecca S. 2003. MODS: The Metadata Object Description Schema.. In Portal : Libraries and the Academy, roč. 3, č. 1, 2003, s. 137-150.

GUENTHER, Rebecca S. 2004. Using the Metadata Object Description Schema (MODS) for resource description: guidelines and applications. In Library Hi Tech, roč. 22, č. 1, 2004, s. 89-98.

HAWKINS, Donald T. 2004. Metadata Practices on the Cutting Edge. In Information Today, roč. 21, č. 7, 2004, s. 28.

McCALLUM, Sally H. 2004. An introduction to the Metadata

Object Description Schema (MODS). In Library Hi Tech, roč. 22, č. 1, s. 82-88.

McCRORY, Amy – RUSSELL, Beth M. 2005. Crosswalking EAD: Collaboration in Archival Description. In Information Technology and Libraries, roč. 24, č. 3, 2005, s. 99-106.

McDONOUGH, Jerome. 2004. METS. In Computers in Libraries, roč. 24, č. 2, 2004, s. 20.

SEADLE, Michael. 2002. METS and the metadata market-place. In Library Hi Tech, roč. 20, č. 3, 2002, s. 255-257.

STEHNO, Birgit – EGGER, Alexander – RETTI, Gregor. 2003. METAe – Automated Encoding of Digitized Texts. In Literary and Linguistic Computing, roč. 18, č. 1, 2003, s. 77-88.

TENNANT, Roy. 2002. MARC Exit Strategies. In Library Journal, roč. 127, č. 19, 2002, s. 27-28.

TENNANT, Roy. 2003. The Engine of Interoperability. In Library Journal, roč. 128, č. 20, 2003, s. 33.

TENNANT, Roy. 2004. Metadata´s Bitter Harvest. In Library Journal, roč. 129, č. 12, 2004, s. 32.

TENNANT, Roy. 2006. The New Cataloger. In Library Journal, roč. 131, č. 7, 2006, s. 32.

Update on Major Metadata Standards. In Library Technology Reports, roč. 41, č. 6, 2005, s. 20-33.

VOJNAR, Martin. 2005. Nové standardy digitálních knihoven pro dlouhodobou ochranu. In Knihovna, roč. 16, č. 2, 2005, s. 45-58.

WARD, Jewel. 2004. Unqualified Dublin Core usage in OAI-PMH data providers. In OCLC Systems and Services, roč. 20, č. 1, 2004, s. 40-47.

WUSTEMAN, Judith. 2003. XML and e-journals. In OCLC Systems and Services, roč. 19, č. 4, 2003, s. 125-127.

YEE, Raymond – BEAUBIEN, Rick. 2004. A preliminary crosswalk from METS to IMS content packaging. In Library Hi Tech, roč. 22, č. 1, 2004. s. 69-81.

Share: