Vytváření digitálních sbírek v Greenstone

From abroad

Základní pojmy a nástroje

V systému Greenstone se sbírkou nazývá množina dokumentů různých typů, které byly převedeny do jednotné struktury, nad nimiž byly vytvořeny indexové soubory a prohledávací seznamy, přidány formátovací příkazy a styly a které byly uloženy pod společným názvem do jednotně označovaných adresářů a souborů.

Vstupní dokumenty různých typů .html, .text, .doc, .ppt, xlt, .pdf aj. se během zpracování převádějí na soubory typu XML. Závazná definice jednoho typu dokumentu v XML vymezuje archivní formát dokumentu; jedná se o soubor typu doc.xml definovaný obecně:

<!ELEMENT Archive (Section*)>

<!ELEMENT Section (Description,Content,Section*)>

<!ELEMENT Description (Metadata*)>

<!ELEMENT Content (#PCDATA)>

<!ELEMENT Metadata (#PCDATA)>

<!ATTLIST Metadata name CDATA #REQUIRED>.

pinkas1.jpg (87851 bytes)

Obr. 1 – Adresáře sbírky iz25010

Slovně: dokument typu „archive“ se skládá z jedné nebo více sekcí. Sekce se skládá z popisu, obsahu, nebo i z další sekce. Popis může obsahovat metadata. Obsah a metadata jsou textové řetězce. Každý prvek metadat musí mít své jméno.

Základní nástroje a postupy

GSDL je sada programů pro ukládání a vyhledávání plných textů dokumentů. Skládá se z jádra v C++ a rozšiřující funkce jsou psány v jazyce Perl v podobě zásuvných modulů. Rozhraní knihovníka v GSDL se nazývá GLI a slouží návrhu a aktualizaci sbírek. Vytváří grafické rozhraní a je napsáno v Javě. Ke sbírkám se přistupuje pomocí webového prohlížeče.

Program server.exe je aplikace v Greenstone, která umožňuje přístup webových klientů k obsahu sbírky v místní síti – server.exe. Od verze 2.83 je součástí balíčku server Apache. Zvláštností systému Greenstone je dynamické vytváření stránek HTML v okamžiku těsně před zobrazením. V GSDL je proto definován speciální jazyk makroinstrukcí. Kódování dat sbírky a definičních souborů je v UTF-8. Texty v rozhraní uživatele jsou prvotně vyjádřeny v angličtině (soubory english.dm a english2.dm) a do národních jazyků jsou převáděny pomocí makroinstrukcí. Postup vytváření sbírky tvoří tři kroky: návrh, realizace a ověření návrhu, administrace a údržba.

Návrh sbírky

Vycházíme z vymezení obsahu a formy sbírky. Zvolíme typy dokumentů pro sbírku. Shromáždíme a obvykle upravíme vstupní dokumenty. Např. sjednotíme různé kódování. Vybereme metadatové schéma: DLS (pět prvků), Dublin Core aj. Dokumentům přiřadíme ručně metadata a GSDL provede automatické indexování. Metadata jsou ukládána do souborů typu XML a mohou se editovat samostatně. Návrh se provádí v grafickém rozhraní GLI.

Návrh hlavních funkcí sbírky se provádí upřesňováním nabídek ze záložky Návrh (Design) v GLI. Nabídku lze shrnout do následujících bodů:

  • výběr a zpracování vstupních dokumentů,
  • vytváření indexových souborů a prohledávacích seznamů,
  • údaje o sbírce jako celku,
  • formátování domovské stránky sbírky, vyhledaných záznamů a prohledávacích seznamů,
  • překlad textů uživatelského rozhraní do cílového jazyka,
  • upřesnění paralelního prohledávání v seznamu sbírek,
  • specifické makroinstrukce sbírky.

Ze vstupních dokumentů vybere Greenstone soubory určitého typu pomocí regulárního výrazu a předá je ke zpracování určitému zásuvnému modulu. Následující výraz je standardní a uživatel ho nemusí vymýšlet: slouží k filtrování vstupních souborů.

(?i)(.html?|.shtml|.shm|.asp|.phpd?|.cgi|.+?.+=.*)$

Obdobně jsou definovány argumenty pro zpracování vyhledávacích indexů a seznamů pro prohlížení. Prohlížecí seznamy se automaticky generují podle zvoleného prvku metadat, např. podle přiřazeného názvu dokumentu. Prohlížecí seznamy mohou být jednoduché seznamy hodnot v abecedním uspořádání nebo složitější hierarchické struktury. Položky seznamu odkazují na plný text dokumentu ve formátu  HTML nebo ve  formátu původním.

Formátování stránek

Rozhraní GLI nabízí speciální formátovací příkazy. Jejich obsahem mohou být „proměnné“ (prvky metadat), konstanty, elementy HTML, kód v JavaScriptu a makroinstrukce. Formátuje se ve vodorovném a svislém směru. Příklad formátovacího příkazu:

format HList “[link][highlight][Title][/highlight][/link]”

Generovaná HTML stránka vzniká na základě zabudovaných kaskádových stylů. Přizpůsobení sbírce lze vytvořit použitím makrodefinic, jak ukazuje zápis stylového prvku.

_collectionspecificstyle_ {
<style type=”text/css”>
div.navbar { background-image: url(“_base:httpcimages_/bg_red.png”); }
</style>}

Realizace sbírky

Vytvoření sbírky z připraveného materiálu probíhá ve dvou fázích. První je import dokumentů, druhá je konečné uložení dat, jejich automatické indexování a sestavení prohlížecích seznamů, tj. vlastní vybudování. Obrázky obsažené např. v HTML souborech jsou sdruženy s původní stránkou.

Během importu jsou dokumenty uloženy v archivním formátu (doc.xml). Proběhnou i nutné formátové převody: např. souborů typu MS Word na HTML. Během vlastního budování (build) se načítají dokumenty v archivním formátu a z nich se provede definitivní uložení. Výňatek z protokolu ukazuje na podobu zpráv z obou fází.

import.pl> MetadataXMLPlugin: processing 4iz250cv1metadata.xml
import.pl> HTMLPlugin processing 4iz250cv1cv1.html
buildcol.pl> *** building index text;dls.Title, ex.Title; dls.Subject;
buildcol.pl> *** outputting information for classifier: CL1

Ověření návrhu

Zkontrolujeme protokol o zpracování, vzhled a úplnost seznamů a vyhledaných záznamů, zadáváme zkušební dotazy. U stylů a formátování kontrolujeme barevné podání, umístění textu a obrázků, funkci makrodefinic atp. Jestliže uživatel ovládá regulární výrazy, může ovlivnit proces filtrování souborů, což vede k další formě ověřování. Provedené změny v návrhu lze ihned realizovat novým spuštěním programu.

Ukázky výstupů

Navigační lišta vždy obsahuje tlačítko pro vyhledávání a několik tlačítek pro procházení seznamů. Další dva obrázky představují věcné a abecední přístupové seznamy.

pinkas2.jpg (22505 bytes)Obr.  2 – Navigační lišta

pinkas3.jpg (56398 bytes)
Obr. 3 – Věcný a abecední přístup k dokumentům

pinkas4.jpg (52303 bytes)
Obr. 4 – Navigační prvky v dokumentu o více sekcích


Literatura

Bainbridge, D. – McKay, D. – Witten, I. H.: Greenstone digital library developer’s guide. [online]. [cit. 2010-5-8].

URL: <http://greenstonesupport.iimk.ac.in/Documents/DevelopersGuide.pdf.>

Share: