XML na semináři v Liberci
Zo zahraničia
Keďže problematika digitalizácie informačných zdrojov bola jednou z nosných tém seminára Automatizácia knižničných
procesov v Liberci a samostatný blok prednášok bol venovaný aplikácii nových štandardov, nasledujúci príspevok je venovaný
XML – eXtensible Markup Language, keďže tento značkovací jazyk potvrdzuje rýchlu expanziu v českej informatickej i
knihovníckej sfére.
Ve dnech 24. – 25. dubna 2001 se konal v Liberci 8. ročník semináře Automatizace knihovnických procesů. Tento článek
vychází především z přednášky Gabriely Krčmařové, dále cituje z prezentací Viléma Sklenáka, Miroslava Škultétyho, Jaroslava
Pokorného, Petra Šalouna a Petra Žabičky.
Základní charakteristika jazyka XML
XML – eXtensible Markup Language:
-
je jazyk, který umožňuje definovat nejen zpracování informace (formát), ale také její sémantickou úroveň
(obsah), -
popisuje nejen to, co data jsou a jak je zpracovávat, ale také co znamenají, tj. umožní automatizované logické
myšlení, - strojem čitelný web se stane strojem srozumitelný web,
- rozsáhlý informační prostor, který web představuje, se stane zpracovatelným, nikoliv jen přístupným,
- XML je přenosný mezi systémy, protože používá SGML jako centrální technologii,
- XML je možné se snadno naučit,
- dokument popisující syntaxi XML má jen třicet stran,
- nabízí komplexní formátovací možnosti,
- umožňuje pokročilé vyhledávací a navigační funkce,
- XML je přiměřeně stabilní,
- XML znamená revoluční změnu, kterou lze přirovnat k vynálezu knihtisku, telegrafu, počítačů a internetu,
-
XML je technické doporučení konsorcia W3C (World Wide Web Consortium), nevlastní jej žádná firma, tudíž nevznikají
žádné problémy s licencemi, - podle prognóz konsorcia W3C bude v roce 2002 75 % dokumentů šířených po internetu zpracováno v XML,
- již dnes má XML takový dopad, o jaký se SGML snažil deset let,
-
v současné době XML podporují hlavní prohlížeče: od července 2000 MS Internet Explorer 5.5 a od srpna 2000 Netscape
6.
Příspěvek XML a knihovny Viléma Sklenáka [4] lze velmi doporučit k prostudování všem, kteří primárně neusilují o
praktické zvládnutí jazyka XML, ale rádi by pochopili jeho základní principy a dali si jej historicky i aktuálně do
souvislosti se světem zkratek (SGML, HTML, XSL, DTD, apod.), kterými nás obklopuje internet a informační technologie.
DTD (Definice typu dokumentu)
Zdá se, že budoucnost XML spočívá především ve využití možnosti definice struktury dokumentu tzv. DTD (Document Type
Definition). Označovaný (markup) dokument bez dohodnutého jazyka značek není pro výměnu mezi různými informačními zdroji
příliš užitečný. Pokud dodržíme určitá pravidla, můžeme vytvářet XML dokumenty, které obsahují libovolné elementy s
libovolnou strukturou. V praxi je však potřeba, aby dokumenty splňovaly určitá pravidla. Pravidla pro strukturu dokumentu lze
zapsat pomocí DTD. V DTD určíme, jaké elementy může dokument obsahovat, v jakém mohou být vzájemném vztahu, jaké atributy
může každý element mít a zda se mohou opakovat či zda mohou být vynechány. Striktně vzato DTD určuje ”gramatiku” daného XML
dokumentu. XML dokument, který vyhovuje gramatice definované v DTD, označujeme jako platný (valid).
Velkému procentu nástrojů pro práci s XML však postačí, bude-li dokument pouze tzv. správně strukturovaný
(well-formed).
Pokud je XML dokument spojen s nějakým DTD, lze snadno pomocí parseru zjistit, zda dokument splňuje požadavky
definované v DTD, které tak slouží jako šablona nutící autora do dokumentu zadat všechny údaje, které musí daný typ dokumentu
obsahovat.
Poznámka: Parser je program, který kontroluje, zda je dokument správně strukturovaný. Lepší parsery zároveň kontrolují,
zda dokument odpovídá danému DTD (samozřejmě jen pokud DTD pro dokument existuje).
Jazyk XML byl od počátku zamýšlen nejen do prostředí webu jako lepší náhrada HTML, ale počítalo se s ním jako s
mediátory výměny i zpracování potenciálně jakýchkoliv dat. Při výměně dat vyvstává problém vzájemné interoperability, čili
schopnosti spolupracovat, domluvit se. Jedním řešením je shodnout se na zcela totožném formátu výměny a tento formát fixovat
pomocí společného DTD, pak dosáhneme nejen interoperability, ale dokonce kompatibility. Požadavek stejného DTD však může být
v praxi omezující – společné DTD totiž de facto určuje společný datový model – a tím je ztracena jedna z nejlepších
vlastností XML jazyku a dokumentu – flexibilita. Pro tento účel vyvinulo konsorcium W3C speciální standard XSL (eXtensible
StyleSheet Language), který společně se svým ”podstandardem” XSLT (eXtensible StyleSheet Transformation) poskytuje velmi
bohatou škálu transformačních a formátovacích možností.
Pro efektivní výměnu a sdílení informací je potřeba, aby se používala standardizovaná DTD. DTD může být unikátní pro
každý dokument, ale také společné pro celou řadu dokumentů v rámci organizace nebo celosvětově. Dnes již na internetu
existují knihovny DTD, kde jsou publikovány obecné předpisy DTD pro konkrétní aplikace z různých oborů lidské činnosti.
Knihovníky zajímají např.:
-
TEI – Text Encoding Initiative: TEI je rozsáhlý projekt, jehož cílem je vytvoření skupiny standardizovaných DTD
vhodných pro uchovávání a výměnu knih. Na několika univerzitách ve světě probíhají projekty, které převádějí klasická díla
(např. Shakespearova) do elektronické podoby právě pomocí TEI. - BiblioML a AuthoritiesML: je to knihovnický formát, jehož základem se stal UNIMARC.
BiblioML a AuthoritiesML – DTD pro knihovníky
V prosinci 1999 byl ukončen francouzský projekt BiblioML, podporovaný Ministerstvem kultury a komunikace, jehož
základním cílem bylo vytvořit přenosový formát na bázi XML, který by zajišťoval přenos dat ve formátu UNIMARC mezi různými
aplikacemi.
Vytvořené formáty DTD BiblioML a AuthoritiesML zajišťují export záznamů z UNIMARC databází a jejich konverzi do XML.
Výsledkem projektu je zároveň vývoj jednoduchých nástrojů umožňujících tento přenos. Formáty BiblioML a AuthoritiesML mohou
být využity v rámci různých aplikací spojených s bibliografickými odkazy.
BiblioML DTD verze 0.3 obsahuje 224 elementů a 2 entity. Element nejvyšší úrovně tohoto DTD je BiblioRecord. Všechny
odkazy na pole a podpole v tomto DTD jsou odkazy na pole a podpole UNIMARC. Některé části DTD jsou ještě ve vývoji nebo
vyžadují další diskusi, ty jsou v textové verzi označeny jako ”otevřený problém” a v HTML verzi červenou barvou. V této verzi
DTD nejsou uvedeny následující pole: 105, 106, 110, 115, 116, 117, 120 – 131, 135, 140, 141, 206. Tato pole jsou buď určena
pro zpracování jiných dokumentů než knih nebo časopisů, nebo obsahují hodnoty, které nebyly do DTD ještě zaneseny. V rámci
projektu bylo do formátu BiblioML konvertováno celkem 1 444 záznamů.
V tomto DTD bylo vhodné využít dvou sad značek, a proto se DTD skládá ze dvou jmenných prostorů s následujícími URI
(Uniform Resource Identifier) adresami:
http://www.culture.fr/BiblioM/en/samples.htm
-
BiblioML –
http://www.culture.fr/BiblioML -
AuthoritiesML –
http://www.culture.fr/AuthoritiesML
Jmenné prostory (XML Namespaces) nabízejí možnost, jak v jednom dokumentu kombinovat více sad značek. Pod pojmem sada
značek se rozumí elementy a atributy. Každá sada značek je jednoznačně definována svou URI adresou. Jmenné prostory
představují velice výkonný mechanismus, avšak stávající parsery neumějí kontrolovat validitu dokumentu, který využívá jmenné
prostory, protože obvykle nemáme k dispozici odpovídající DTD, vzniklé sloučením několika sad značek. Tuto možnost však
nabízejí XML schémata, která často nahrazují poněkud zastaralá DTD (podrobněji viz příspěvek V. Sklenáka [4]).
XML jako náhrada MARC formátu (XMLMARC formát)
Na obou amerických knihovnických konferencích AUTOCAT a USMARC probíhá velmi plamenná diskuse o tom, zda je XML schopen
nahradit MARC formát a zda je to nutné či účelné. Diskusi otevřel Bruce Johnson, předseda výboru MARBI (Machine-Readable
Bibliographic Information), který je odpovědný především za rozvoj MARC formátů. B. Johnson popisuje odvážnou inovaci na
Stanfordské univerzitě, kde Dick Miller, vedoucí technických služeb a knihovního systému v lékařské knihovně, koordinuje
projekt nazvaný ”Medlane”, jehož základním cílem je zmapovat možnosti konverze MARC formátu do XML. Podle webové stránky
”Medlane” (
http://xmlmarc.stanford.edu ) je cílem projektu ”soustředit zájem na využití nových
standardů pro kvalitnější dostupnost bibliografických a autoritních dat na webu”. B. Johnson uzavírá svůj příspěvek v
konferenci AUTOCAT dotazem na katalogizační komunitu: zda si myslí, že MARC by měl být nahrazen XML, což by vyžadovalo
drastickou revizi AACR2, nemluvě o celkové opravě bibliografických záznamů, nástrojů a katalogizačních utilit.
Hlavními argumenty odpůrců náhrady MARC formátu jsou především:
- existence obrovské investice vložené do MARC záznamů a softwarových nástrojů,
- nezbytná nová investice související s migrací systémů,
- čas potřebný pro prodejce systémů k vývoji knihovnických systémů na bázi XML,
- přesnost a vysoká úroveň MARC standardů,
- XML je příliš nový a není důkladně prověřen dlouhým využíváním jako MARC,
- MARC je přizpůsobivý,
- MARC je v chodu a funguje.
- Zastánci využití XML pro zpracování a přenos bibliografických záznamů uvádějí:
- katalogizace s využitím MARC standardů a AACR2 je značně vyčerpávající a zdlouhavá,
- MARC formát nedrží krok se současným vývojem; změny, které je schopen akceptovat, implementuje velmi pomalu,
- nízká využitelnost značné detailnosti charakteristické pro proces tradiční katalogizace,
- MARC je jen komunikační formát, ačkoliv je často považován za nezbytnou součást AACR2,
- AACR2 však může pracovat s XML stejně dobře jako s MARC formátem,
-
XML by měl nahradit MARC jako komunikační formát, přestože jeho implementace v širokém měřítku bude stát mnoho času a
peněz.
V současné době by se možná diskuse neměla soustředit na otázku, zda XML má či nemá nahradit MARC, ale měla by se
raději nejprve zabývat otázkou, co knihovníci získají, jestliže XML nahradí MARC formát. CORC (OCLC) – Cooperative Online
Resource Catalog dokázal, že MARC/AACR2 záznamy mohou být konvertovány do jiných sémantických schémat. Konverze polí MARC
formátů do elementů Dublin Core funguje velmi efektivně, v ideálním případě je zahrnuta přímo do zdroje dokumentu v MARC
formátu. Je velmi důležité tento proces i nadále rozvíjet přinejmenším dokud XML nenahradí MARC. CORC bude v dohledné době
podporovat další metadatové standardy a zajišťovat konverzi mezi těmito standardy a MARC formáty.
Konverze bibliografického záznamu z MARC formátu do XML tradiční záznam osvobozuje z prostředí OPAC-u a umožňuje
vytvářet jeho kopii v informačních zdrojích na internetu, a tudíž jej vyhledávat prostřednictvím stejného rozhraní jako
ostatní webové entity. Knihovníci dobře vědí, že uživatelé stále více upřednostňují vyhledávání plnotextových dokumentů jako
primární zdroj informací na internetu. Zároveň někteří z knihovníků s lítostí konstatují, že se snižuje využívání zdrojů v
tradičních formátech, přitom si zřejmě neuvědomují, že důvodem je především skutečnost, že jsou uživatelům k dispozici
většinou pouze prostřednictvím tradičních knihovnických OPAC-ů, kdežto přístup k ostatním elektronickým zdrojům je realizován
několika různými vstupy.
Domníváme se, že není nutné obhajovat ”opuštěný” MARC, protože online katalog ještě nevyčerpal svou užitečnost.
Knihovníci si však budou muset postupně zvykat na myšlenku, že bibliografický záznam nemusí být založen na MARC formátu, ale
může využít metadatový jazyk XML.
XML jako metaformát
Zcela běžně je pozornost soustřeďována na možnosti jazyka XML při vytváření a popisu struktur, avšak skutečným
strategickým významem XML není struktura, ale metadata. Metadata využívající schéma RDF. RDF představuje soubor pravidel,
která popisují informační zdroje, jimiž může být cokoliv, počínaje jedním slovem až po celý informační fond, ať již lokální
nebo vzdálený. To umožňuje zachytit metadata v mnohem větší kvantitě a kvalitě, než bylo kdy předtím možné. Mimořádná
pružnost RDF tedy dává možnost vytvářet kvalitnější metadata, která by informaci popsala přesněji a umožnila dokonaleji
formulovat dotazy. Jeho hlavním přínosem však je, že jím lze definovat zpracování informace a sémantickou úroveň informací.
Metadata zpracování informací, která popisují, jak s informacemi nakládat, ocenili především představitelé elektronického
obchodu, zatímco metadata sémantické úrovně potěší především knihovníky. RDF jako výstupní formát podporuje Dublin Core
metadata creator, což je nástroj na uložení metadat v dokumentu vyvinutý skandinávskými zeměmi pod vedením Juhy Hakaly z
Helsinské univerzitní knihovny. Tento nástroj byl vyvinut v rámci projektu Nordic Metadata a je volně dostupný, proto mohl
být převeden do češtiny a je možné jej vyzkoušet na adrese:
http://webarchiv.nkp.cz/cgi-bin/dc_cz.pl (podrobněji viz
příspěvek Petra Žabičky: Nástroje pro tvorbu metadat Dublin Core [7]).
Striktní oddělení tzv. procedurálního markupu (formátování) a popisného markupu (obsah) znamená pro další vývoj
internetu revoluční změnu. Klást dokonalejší dotazy je jen jedním z cílů XML. Důležitějším cílem je přeměna ze strojem
čitelného webu na stroji srozumitelný web. Ten bude možné vytvořit novým druhem metadat – sémantickými informacemi –
popisujícími ne to, co data jsou nebo jak je zpracovávat, ale také co znamenají, tj. umožní automatizované logické myšlení.
Pro zlepšení relevance výsledků vrácených běžnými vyhledávacími stroji nerozhoduje, zda je logické myšlení užíváno a priori
nebo nepřímo. Podstatné je, že rozsáhlý informační prostor, který web představuje, se stane zpracovatelným, nikoliv jen
přístupným. Největší objem dat, který bude v podobě XML přenášen, budou strukturovaná data, která se dnes ukládají do
relačních databází. XML poslouží jako vhodný přenosový formát při komunikaci mezi aplikacemi různých výrobců, mezi webovým
serverem a prohlížečem apod.
XML a Z39.50
Zatímco knihovníci diskutují o výhodách a nevýhodách náhrady MARC formátů formátem XML, dochází k velmi užitečným
propojením mezi XML a jiným knihovnickým standardem – protokolem Z39.50. V rámci projektu Emerge (USA) usiluje NCSA (National
Center for Supercomputer Applications) o vývoj progresivních přenosových a komunikačních nástrojů, které by ještě kvalitněji
překonaly heterogenitu informačního prostředí. Tyto softwarové nástroje pak nabízí jako volně šiřitelné na webu Emerge:
http://emerge.ncsa.uiuc.edu. Jedním z takových nástrojů je software Gazebo, který
provádí konverzi dotazů popsaných v XML do syntaxe protokolu Z39.50.
XML a SFX
SFX je software, který vyvinul Herbert Van de Sompel, vedoucí Library Automation University v Ghentu. SFX umožňuje
dynamické propojování dat (podle principu odpovídej jen, jsi-li tázán), dává rozsáhlé možnosti využití v oblasti ovládnutí
elektronického informačního světa. Bližší informace lze nalézt na URL adrese
http://www.sfxit.com.
Základní principy fungování a využití SFX se na 8. ročníku semináře AKP pokusili vysvětlit Pavel Krbec a Jiří Pavlík v
příspěvku Přidané služby knihoven a brána k informacím [1].
Ve dnech 22. – 23. března 2001 uspořádala společnost EUSIDIC (The European Association of Information Services) ve
francouzském Lille konferenci s názvem ”XML, SFX, … a jiné zkratky: (meta)link budoucnosti”. Hlavním tématem konference byly
strategie a nástroje pro strukturování obsahu za účelem přesného a obsáhlého vyhledávání informací.
Mottem konference bylo:
”Náš svět je plný zkratek – otázkou není, zda víme, co všechny znamenají, ale jestli víme, jak je použít. Jestli víme,
které z nich mohou skutečně přispět ke zlepšení struktury, obsahu a vyhledávání informací v síti.”
Jedním ze závěrů konference je:
”Jestliže se XML a SFX stanou standardy používanými v tak velkém rozsahu jako HTML, bude to mít obrovský dopad na
strukturování elektronického obsahu (e-content) a vyhledávání informací na webu.”
Závěrečná část příspěvku Viléma Sklenáka: XML a knihovny [4] velmi přehledně shrnuje oblasti využití XML v
knihovnách:
XML jako základní jazyk elektronicky dodávaných dokumentů
Potenciál XML je do budoucna těžko odhadnutelný, ale je zřejmé, že v knihovnách se nejvíce bude týkat oblasti textových
dokumentů:
-
Využití XML pro vytváření víceúčelově použitelných dokumentů, např. pro zpřístupnění v prostředí internetu, pro
publikování v tištěné formě apod. -
Skloubení současných standardů pro strukturovaný popis, například MARC, s možnostmi XML zní velmi zajímavě. Nejde o
konkurenci, ale o soužití. XMLMARC není nic nerealistického, ale jde o řešený projekt v National Library of Medicine v
USA. -
Mohou vznikat DTD nebo XML schémata pro bibliografický popis různých typů dokumentů, nebo pro různé účely. Jako
příklad lze uvést francouzský projekt BiblioML. -
Je možno těžit z již některých standardizovaných DTD, které byly vytvořeny již v éře SGML, např. jde o aktivity TEI
(Text Encoding Initiative). - Na bázi XML je možné vytvářet vyhledávací stroje s velmi variabilními, ale přesnými, možnostmi vyhledávání.
- XML může pomoci při vytváření integrovaných prostředí pro práci s heterogenními informačními zdroji.
XML jako obecný jazyk pro výměnu dat
Jazyk XML se může uplatnit všude tam, kde si různé počítačové systémy předávají data. Zde jde právě o to, že XML
dokument je chápán jako označení pro strukturovaná data. Těmi ovšem může být záznam o knize, ale stejně tak objednávka či
faktura, nebo jakékoliv jiné doklady, které jsou v současnosti do značné míry spojeny s ruční prací. Stačí si jen uvědomit
sled kroků, který se děje v okamžiku objednávky určité knihy:
- Na základě požadavku je v integrovaném knihovnickém systému vytvořen záznam o objednávce.
- Objednávka je vytištěna a zaslána dodavateli.
- Na straně dodavatele je objednávka přijata a potřebné údaje ručně přeneseny do informačního systému.
-
V okamžiku, kdy je kniha připravena k odeslání, je vytvořena/vygenerována faktura, která se pak společně s knihou
vrací zpět do knihovny. - Do integrovaného knihovnického systému jsou přepsány údaje z faktury.
Je zřejmé, že řada údajů se opakovaně přepisuje, byť na různých místech. Úvahu je možné ještě rozšířit o situaci, kdy
jsou provozovány v rámci téže organizace jak knihovnický systém, tak ekonomický informační systém. Na jednu stranu jde o
plýtvání lidskou prací, na druhou stranu zde potenciálně vzniká prostor pro chyby.
Tyto zjevné nedokonalosti již řadu let řešily firmy v rámci vzájemného obchodování prostřednictvím EDI (Electronic Data
Interchange). Nevýhodou první generace EDI byla složitost datových formátů. Situace dnes je již radikálně jiná, právě díky
XML. Vždyť při předávání obchodních dat jde o jejich strukturu a vhodný formát přenosu. A to je právě role XML. Proto se
objevuje i nový směr EDI známý pod zkratkou EDI/XML, jejíž význam je zřejmý.
XML jako jazyk pro popis dat
Jazyk XML má šanci se stát univerzálním jazykem pro popis dat. Vždyť pomocí něj lze vytvořit textový dokument stejně
jako reprezentovat tabulku relační databáze. XML může být použit pro zachycení struktury primárních dat i dat sekundárních. V
té souvislosti se hovoří samozřejmě o metadatech, tedy oblasti, se kterou především knihovníci mají mnohaleté zkušenosti. V
oblasti metadat existuje řada standardů, přičemž pozitivní role XML z hlediska metadat je dána těmito vlastnostmi:
- možnost kombinování více metadatových schémat v jednom metadatovém záznamu,
- snadná srozumitelnost jak pro počítač, tak pro člověka,
- možnost seskupování elementů,
- podpora komplexních hodnot,
- podpora pro vícejazyčnost.
Příkladů dopadu XML na oblast metadat lze jmenovat mnoho. Například jsou zajímavé: Meta-Content Framework (MCF),
Channel Definition Format (CDF) nebo PICS (Platform for Internet Content Selection).
Pravděpodobně nejvýznamnějším počinem je vznik standardu RDF (Resource Description Framework). RDF je infrastrukturou,
která umožňuje kódování, výměnu a opakované užití strukturovaných metadat. RDF je aplikací jazyka XML. Obecně nabízí RDF
následující:
- interoperabilitu různých metadatových schémat,
- strojově srozumitelnou sémantiku metadat,
- možnost unifikovaných dotazů při vyhledávání zdrojů,
- lepší přesnost při vyhledávání zdrojů než při použití plných textů,
- možnost vzniku pravidlově orientovaného jazyka pro automatizované posuzování zdrojů,
- jazyk pro získávání metadat od třetích subjektů.
Integrovaný knihovnický systém na bázi XML?
Lze očekávat v horizontu několika let, že se objeví integrované knihovnické systémy plně založené na bázi XML. Někteří
dodavatelé již zahrnují podporu XML do současných systémů, za všechny lze zmínit např. Endeavor. Nezbytným předpokladem však
bude vznik potřebných standardů v podobě DTD nebo schémat pro různé typy záznamů, jak jsou používány v jednotlivých modulech
integrovaného systému. Zejména jde o bibliografický popis, autority, vlastnictví, uživatele, dodavatelé, různé typy
transakcí, meziknihovní výpůjčky atd.
Miroslav Škultéty ve svém příspěvku WWW jako dynamická knihovna [6] uvádí ve čtvrté kapitole Klíčová role XML
toto:
Rozvoj metadat na internetu byl podpořen sjednocováním komunikačních formátů. V historii strojové komunikace mezi
heterogenními systémy se totiž ukázaly čistě strojové (binární) formáty slepou vývojovou větví. Na jejich místo proto v
posledních letech nastupují formáty kombinující čitelná data se strojově srozumitelnými značkami, jako bylo HTML a nyní
XML.
Binární formáty reprezentují data ve tvaru, který je srozumitelný specializovanému programu, ale většinou z úsporných
důvodů neobsahuje dostatek redundantních informací, které by usnadňovaly jeho zpracování člověkem nebo obecným algoritmem.
Mnohem schůdnější se ukázala cesta kombinovaných formátů, jež obsahují člověkem čitelný text prokládaný speciálními značkami
pro automatické zpracování. První velký úspěch zaznamenal formát HTML používaný k popisu webových stránek. Díky své
čitelnosti a přehlednosti se běžně zpracovává ručně, ale dovoluje i plně automatické generování a zpracování. Jeho nevýhodou
však je, že směšuje značky pro strukturování obsahu (titulek, seznam a jeho prvky, tabulka, obrázek) se značkami pro popis
prezentace (barva, velikost písma, doporučovaná šířka obrázku).
Zobecněním formátu HTML se stal standard pro zápis dat XML. Zatímco HTML definuje gramatiku i slovní zásobu jazyka, XML
specifikuje pouze gramatiku (dokonce pouze interpunkci a způsob definice gramatiky) a slovní zásobu ponechává na uživateli.
Tím je dána mimořádná flexibilita XML, která dovoluje rozsah využití od zápisu málo strukturovaných dokumentů podobných
webovým stránkám v HTML až po zápis vysoce strukturovaných dat, například výstupů z relační databáze.
Odborníci věští XML slibnou budoucnost, protože jde o dlouho hledaný spojovací prvek v heterogenních informačních
systémech. Existují grafické nástroje pro ruční editaci XML, vznikají specializované databáze dokumentů XML, hledají se cesty
efektivního hledání v takových databázích a možnosti obousměrné transformace dat mezi nimi a stávajícími relačními
databázemi. V budoucnu si lze představit, že převážná část automatizované výměny informací bude postavena na tomto standardu.
Naznačuje to mimo jiné i rostoucí podpora použití XML na velice technické úrovni komunikace, jako je tomu u protokolu pro
spolupráci vzdálených programových objektů SOAP, což otevírá cestu k dálkovému zpracování dokumentů na specializovaných
výpočetních systémech.
Díky výše uvedenému nás nepřekvapí, že XML jako standard byl několikrát zmíněn v příspěvcích zabývajících se
problematikou digitálních knihoven. Z velmi zajímavého příspěvku Jaroslava Pokorného – Digitální knihovny: principy a
problémy [3] citujme jen malou část:
Na velmi obecné úrovni je možné digitální knihovnu chápat jako jistou interakci mezi výpočetními systémy a lidmi.
Výpočetní systémy zahrnují servery a klienty, účastníky interakce jsou tvůrci informací nebo jejich vydavatelé, knihovníci a
uživatelé.
Velmi atraktivní řešení této interakce dnes nabízejí některé projekty založené na (vyhledávacím) middleware. To je
jistý zprostředkující software, přes který se dotazy z digitální knihovny, či od samotného uživatele dostávají podle jistých
pravidel k informačním zdrojům, transformují se nejen do jazyka těchto zdrojů, ale i do systému konceptů, kterými jsou
informace ve zdrojích reprezentovány. Snad nejznámějším middlewarem v knihovnické komunitě je standard (protokol) Z39.50.
Definuje široké spektrum možnosti, bohužel však není v širším měřítku na Webu používán, což budování takto pojatých
digitálních knihoven znesnadňuje. Zdůrazněme, že na rozdíl od složitého Z39.50 jsou webové protokoly a standardy mnohem
jednodušší. Při budování digitálních knihoven se uplatňují ve stále větší míře standardizované jazykové prostředky či
protokoly jako Dublin Core, XML, RDF (včetně jejich zobecnění na popis schémat).
V rámci prezentace Propojení virtuální knihovny s textovou databází AmphorA [5] seznámil Petr Šaloun účastníky semináře
se softwarem, který je provozován v knihovně Zemědělského výzkumného ústavu v Kroměříži. Jde o nástroj, který umožňuje
”katalogizaci” webových zdrojů (základní identifikační údaje jsou: název, URL, jazyk a jednoduchý popis prostřednictvím
klíčových slov a deskriptorů vyjadřujících hlavní téma registrovaného zdroje nebo dokumentu). Součástí virtuální (digitální)
knihovny jsou i nástroje pro její údržbu a správu, včetně automatické kontroly platnosti URL adres a možnosti načítání plných
textů. Propojení virtuální knihovny s plnotextovou databází AmphorA přináší uživateli další účinné možnosti při vyhledávání a
zpracování elektronických informačních zdrojů v prostředí WWW. Plnotextový nástroj AmphorA je s virtuální (digitální)
knihovnou provázán výstupem v XML formátu. (Propojení je tedy definováno datově s využitím standardu XML.) Textová část XML
dokumentu může obsahovat celý text libovolného dokumentu. To nám při plnotextovém zpracování dává jistotu, že můžeme
vyhledávat jak podle obsahu dokumentu, tak využít obsah záznamu položky virtuální (digitální) knihovny a vyhledávat tedy s
využitím přidané hodnoty záznamu ve virtuální knihovně.
Závěr
Účastníci semináře měli k dispozici formálně i obsahově velmi kvalitní sborník příspěvků, které jsou zároveň s
prezentacemi k dispozici na URL adrese:
http://knihovny.cvut.cz/akp/.
Osmý ročník semináře Automatizace knihovnických procesů se konal poprvé v moderním a velmi příjemném prostředí nové
budovy Státní vědecké knihovny v Liberci. Charakter prostředí plně korespondoval s vysokou úrovní semináře jak po stránce
obsahové, tak po stránce organizační. Je potěšující, že další ročník semináře AKP v roce 2003 se bude konat opět v prostředí
SVK v Liberci.
Použitá literatura:
1. KRBEC, Pavel, PAVLÍK, Jiří. Přidané služby knihoven a brána k informacím. In: Automatizace knihovnických procesů –
8. : Sborník z 8. ročníku semináře pořádaného ve dnech 24. – 25. dubna 2001 v Liberci. Praha : ČVUT, 2001, s. 121.
2. KRČMAŘOVÁ, Gabriela. Možnosti využití XML v knihovnické praxi. In: Automatizace knihovnických procesů – 8. : Sborník
z 8. ročníku semináře pořádaného ve dnech 24. – 25. dubna 2001 v Liberci. Praha : ČVUT, 2001, s. 65 – 72.
3. POKORNÝ, Jaroslav. Digitální knihovny: principy a problémy. In: Automatizace knihovnických procesů – 8. : Sborník z
8. ročníku semináře pořádaného ve dnech 24. – 25. dubna 2001 v Liberci. Praha : ČVUT, 2001, s. 27 – 38.
4. SKLENÁK, Vilém. XML a knihovny. In: Automatizace knihovnických procesů – 8. : Sborník z 8. ročníku semináře
pořádaného ve dnech 24. – 25. dubna 2001 v Liberci. Praha : ČVUT, 2001, s. 47 – 64.
5. SNÁŠEL, Václav, ŠALOUN, Petr, ĎURÁKOVÁ, Daniela, DVORSKÝ, Jiří. Propojení virtuální knihovny s textovou databází
AmphorA. In: Automatizace knihovnických procesů – 8. : Sborník z 8. ročníku semináře pořádaného ve dnech 24. – 25. dubna 2001
v Liberci. Praha : ČVUT, 2001, s. 130 – 137.
6. ŠKULTÉTY, Miroslav. WWW jako dynamická knihovna. In: Automatizace knihovnických procesů – 8. : Sborník z 8. ročníku
semináře pořádaného ve dnech 24. – 25. dubna 2001 v Liberci. Praha : ČVUT, 2001, s. 73 – 81.
7. ŽABIČKA, Petr. Nástroje pro tvorbu metadat Dublin Core. In: Automatizace knihovnických procesů – 8. : Sborník z 8.
ročníku semináře pořádaného ve dnech 24. – 25. dubna 2001 v Liberci. Praha : ČVUT, 2001, s. 86 – 103.