Vytváření digitálních sbírek v Greenstone
Zo zahraničia
Základní pojmy a nástroje V systému Greenstone se sbírkou nazývá množina dokumentů různých typů, které byly převedeny do jednotné struktury, nad nimiž byly vytvořeny indexové soubory a prohledávací seznamy, přidány formátovací příkazy a styly a které byly uloženy pod společným názvem do jednotně označovaných adresářů a souborů. Vstupní dokumenty různých typů .html, .text, .doc, .ppt, xlt, .pdf aj. se během zpracování převádějí na soubory typu XML. Závazná definice jednoho typu dokumentu v XML vymezuje archivní formát dokumentu; jedná se o soubor typu doc.xml definovaný obecně: <!ELEMENT Archive (Section*)> <!ELEMENT Section (Description,Content,Section*)> <!ELEMENT Description (Metadata*)> <!ELEMENT Content (#PCDATA)> <!ELEMENT Metadata (#PCDATA)> <!ATTLIST Metadata name CDATA #REQUIRED>.
Slovně: dokument typu „archive“ se skládá z jedné nebo více sekcí. Sekce se skládá z popisu, obsahu, nebo i z další sekce. Popis může obsahovat metadata. Obsah a metadata jsou textové řetězce. Každý prvek metadat musí mít své jméno. Základní nástroje a postupy GSDL je sada programů pro ukládání a vyhledávání plných textů dokumentů. Skládá se z jádra v C++ a rozšiřující funkce jsou psány v jazyce Perl v podobě zásuvných modulů. Rozhraní knihovníka v GSDL se nazývá GLI a slouží návrhu a aktualizaci sbírek. Vytváří grafické rozhraní a je napsáno v Javě. Ke sbírkám se přistupuje pomocí webového prohlížeče. Program server.exe je aplikace v Greenstone, která umožňuje přístup webových klientů k obsahu sbírky v místní síti – server.exe. Od verze 2.83 je součástí balíčku server Apache. Zvláštností systému Greenstone je dynamické vytváření stránek HTML v okamžiku těsně před zobrazením. V GSDL je proto definován speciální jazyk makroinstrukcí. Kódování dat sbírky a definičních souborů je v UTF-8. Texty v rozhraní uživatele jsou prvotně vyjádřeny v angličtině (soubory english.dm a english2.dm) a do národních jazyků jsou převáděny pomocí makroinstrukcí. Postup vytváření sbírky tvoří tři kroky: návrh, realizace a ověření návrhu, administrace a údržba. Návrh sbírky Vycházíme z vymezení obsahu a formy sbírky. Zvolíme typy dokumentů pro sbírku. Shromáždíme a obvykle upravíme vstupní dokumenty. Např. sjednotíme různé kódování. Vybereme metadatové schéma: DLS (pět prvků), Dublin Core aj. Dokumentům přiřadíme ručně metadata a GSDL provede automatické indexování. Metadata jsou ukládána do souborů typu XML a mohou se editovat samostatně. Návrh se provádí v grafickém rozhraní GLI. Návrh hlavních funkcí sbírky se provádí upřesňováním nabídek ze záložky Návrh (Design) v GLI. Nabídku lze shrnout do následujících bodů:
Ze vstupních dokumentů vybere Greenstone soubory určitého typu pomocí regulárního výrazu a předá je ke zpracování určitému zásuvnému modulu. Následující výraz je standardní a uživatel ho nemusí vymýšlet: slouží k filtrování vstupních souborů. (?i)(.html?|.shtml|.shm|.asp|.phpd?|.cgi|.+?.+=.*)$ Obdobně jsou definovány argumenty pro zpracování vyhledávacích indexů a seznamů pro prohlížení. Prohlížecí seznamy se automaticky generují podle zvoleného prvku metadat, např. podle přiřazeného názvu dokumentu. Prohlížecí seznamy mohou být jednoduché seznamy hodnot v abecedním uspořádání nebo složitější hierarchické struktury. Položky seznamu odkazují na plný text dokumentu ve formátu HTML nebo ve formátu původním. Formátování stránek Rozhraní GLI nabízí speciální formátovací příkazy. Jejich obsahem mohou být „proměnné“ (prvky metadat), konstanty, elementy HTML, kód v JavaScriptu a makroinstrukce. Formátuje se ve vodorovném a svislém směru. Příklad formátovacího příkazu: format HList “[link][highlight][Title][/highlight][/link]” Generovaná HTML stránka vzniká na základě zabudovaných kaskádových stylů. Přizpůsobení sbírce lze vytvořit použitím makrodefinic, jak ukazuje zápis stylového prvku. _collectionspecificstyle_ { Realizace sbírky Vytvoření sbírky z připraveného materiálu probíhá ve dvou fázích. První je import dokumentů, druhá je konečné uložení dat, jejich automatické indexování a sestavení prohlížecích seznamů, tj. vlastní vybudování. Obrázky obsažené např. v HTML souborech jsou sdruženy s původní stránkou. Během importu jsou dokumenty uloženy v archivním formátu (doc.xml). Proběhnou i nutné formátové převody: např. souborů typu MS Word na HTML. Během vlastního budování (build) se načítají dokumenty v archivním formátu a z nich se provede definitivní uložení. Výňatek z protokolu ukazuje na podobu zpráv z obou fází. import.pl> MetadataXMLPlugin: processing 4iz250cv1metadata.xml Ověření návrhu Zkontrolujeme protokol o zpracování, vzhled a úplnost seznamů a vyhledaných záznamů, zadáváme zkušební dotazy. U stylů a formátování kontrolujeme barevné podání, umístění textu a obrázků, funkci makrodefinic atp. Jestliže uživatel ovládá regulární výrazy, může ovlivnit proces filtrování souborů, což vede k další formě ověřování. Provedené změny v návrhu lze ihned realizovat novým spuštěním programu. Ukázky výstupů Navigační lišta vždy obsahuje tlačítko pro vyhledávání a několik tlačítek pro procházení seznamů. Další dva obrázky představují věcné a abecední přístupové seznamy. Obr. 2 – Navigační lišta
Literatura Bainbridge, D. – McKay, D. – Witten, I. H.: Greenstone digital library developer’s guide. [online]. [cit. 2010-5-8]. URL: <http://greenstonesupport.iimk.ac.in/Documents/DevelopersGuide.pdf.> |