Info mailom

Chcete pravidelne dostávať informácie o novinkách?

Program MEMORIA: rukopisy a staré tlače na internete

Autori: Stanislav Psohlavec; Zdeněk Uhlíř
Číslo: 2/2004 - Digitalizácia v knižniciach
Rubrika: Hlavné články/ Main Articles
Kľúčové slová:

MEMORIA je názov združujúci iniciatívy, ktoré sa zrodili v súvislosti s prevádzkou a riešením programu Memoriae Mundi Series Bohemica (MMSB). Projekt Memoria smeruje k vybudovaniu virtuálneho bádateľského prostredia pre oblasť historických knižných fondov. Projekt podporuje vznik nových a využívanie existujúcich informácií, zabezpečuje ich dlhodobú životnosť a trvalú použiteľnosť. Sprístupňuje výsledky doterajšej digitalizácie dokumentov, výsledky detailných popisov historických dokumentov a prináša prístup k bibliografickým informáciám z rôznych zdrojov v databáze Manuscriptorium. Perspektívne sa budú zaraďovať plné texty primárnych dokumentov, t. j. bude dostupná edícia originálnych historických dokumentov, ako aj sekundárne dokumenty, t. j. dokumenty spracované na ich základe. Náhľady do digitalizovaných rukopisov sú voľne prístupné, kvalitné zobrazenie je licencované, pričom pre aktívnych účastníkov projektu je licencia zdarma.

Ciele projektu

Vychádzame z toho, že nové rovnako ako staré informácie o historických dokumentoch vznikli v najlepšej viere a úmysle. Doba i podmienky, za akých vznikli, sa podstatne líšia, priebežne sa menia i názory, rozširuje sa poznanie, na ktoré nadväzuje. Z princípu nemožno žiadne dáta brať ako definitívne a jedine správne. Sme presvedčení, že každá dostupná informácia je pre bádateľa prínosom a vodidlom pri ďalšej samostatnej práci. Praktickým cieľom programu MEMORIA je vybudovanie virtuálneho bádateľského prostredia pre oblasť historických fondov formou kooperatívne využívaného otvoreného katalógu týchto fondov, na ktorý nadväzuje zabezpečenie digitálnych foriem týchto fondov (obrazových, textových) a ich sprístupňovanie, a teda pripojenie digitálnej knižnice obrazových kópií a plných textov. Nevyhnutnosťou je zabezpečenie prepojenia s ďalšími dátami, ktoré majú vzťah k týmto fondom (štúdie, ďalšie popisné metadáta, ďalšie elektronické dokumenty/objekty) a taktiež poskytovanie informácií iným systémom štandardizovanými postupmi (Z39.50, OAI).

Súčasným výsledkom snahy dosiahnuť tieto ciele je databáza Manuscriptorium, ktorá je dostupná buď cez stránku predstavujúcu celý projekt MEMORIA ( www.memoria.cz), alebo priamo cez www.manuscriptorium.com .

Tento prvý krok je prezentáciou existujúcich informácií, preto ho zatiaľ nemožno nazvať bádateľským prostredím. Takým sa stane, až bude umožnené tieto zverejnené informácie riadene meniť, doplňovať, navzájom prepájať.

Rutinné aktivity

Tieto aktivity zahrnujú rutinné popisy a digitalizáciu vzácnych originálov dokumentov, výrobu digitálnych dokumentov, archiváciu a ochranu digitálnych dát. Tieto prevažne výrobné činnosti prebiehajú predovšetkým v rámci projektov VISK 6, prípadne ďalších projektov, ktoré koordinátor a prevádzkovateľ projektu MEMORIA iniciovali, alebo sa na nich podieľajú.

Popisy

Popisy digitalizovaných dokumentov musia byť dosť podrobné, pretože sú určené nielen na katalogizáciu, ale tiež na prepojenie digitálnych obrazov do formy elektronického dokumentu, ktorého typickou podobou je virtuálna kniha.

Tu je zaujímavá genéza prostriedkov, ktoré sa pre základné popisy dokumentov využívajú. Zdanlivo logické riešenie popisovať digitálne obrazy sa v praxi neosvedčilo z viacerých dôvodov, pričom hlavným bola absencia mnohých informácií, ktoré sú obrazom nenahraditeľné a ktoré nesie iba sám originálny dokument. Na druhej strane cieľom základného popisu dokumentov v tomto projekte nie je tradičný spôsob katalogizácie, nejde primárne o náhradnú slovnú prezentáciu originálu, ktorá má v tlačenom prostredí nesporné oprávnenie. Ak je v elektronickom prostredí dostupná reprezentácia originálu v podobe obrazu a očakáva sa pripájanie ďalších informácií, potom sa slovná prezentácia (až interpretácia) originálu na začiatku stáva nepodstatnou, pokiaľ jej cieľom nie je poskytnúť signifikantné informácie, ktoré vedú k nájdeniu dokumentu a informácií v ňom obsiahnutých.

Opis predchádzajúcej digitalizácie má výhodu okrem iného i v tom, že pri popise dokumentu sa súčasne robí kontrola, či je rukopis bez rizík spôsobilý na digitalizáciu. Zaviedli sme princíp pevne štruktúrovaného popisu DOBM (Digitization of Old Books, Manuscripts and Other Documents) využívajúceho SGML, ktorý sa vytvára pred digitalizáciou. Nástroje sú voľne k dispozícii a dosiaľ sa používajú pre svoju jednoduchosť, nepokladáme ich však už za perspektívne.

Pevná štruktúra popisu vo forme DOBM má síce výhodu v tom, že je jednoduchá a uľahčuje rutinnú prácu, no jeho nevýhodou je to, že využíva buď iba tvrdo štruktúrované dáta, alebo vôbec neštruktúrované dáta: bibliografické údaje a údaje o niektorých ľahko typizovateľných vonkajších znakoch sú vo forme tvrdo štruktúrovaných dát, zatiaľ čo ostatné údaje vrátane údajov o intelektuálnom obsahu originálneho dokumentu sú v podobe voľného textu. V prípade podrobného (a teda rozsiahleho) popisu sa tak kladie prekážka jednoduchej orientácii v zobrazenom zázname aj sofistikovanejšiemu vyhľadávaniu. Ukázalo sa, že pevná štruktúra záznamu je iba medzistupňom k takej forme záznamu, ktorá bude využívať aj dáta semištruktúrované.

Vytvorením pokročilejšej formy zápisu dát sa zaoberal európsky projekt MASTER (Manuscript Access throuh Standards for Electronic records), ktorého riadnym partnerom bola i Národná knižnica ČR. Výsledkom tejto aktivity bol Standard MASTER (najprv na báze SGML, naostatok XML), ktorý umož-
ňuje vytváranie a využívanie predovšetkým semištruktúrovaných dát, to značí, že je prispôsobivejší tak variabilite popisovaného materiálu, ako aj orientácii pri zobrazení a pri vyhľadávaní. Je založený na štrukturácii obsahových elementov do hĺbky i na relatívne voľnom využívaní funkčných elementov, ktoré sa môžu vzťahovať na rôzne horizontálne i vertikálne miesta v štruktúre celého popisu. Pevné sú iba pravidlá syntaxe. V štandarde MASTER možno teda zhotovovať jednak celkom jednoduché, informačne minimálne nasýtené záznamy, jednak záznamy idúce do hĺbky popisovaného originálneho dokumentu. To znamená, že jeho praktické využitie je veľmi široké a flexibilné, adaptovateľné na rôzne ciele i rôznu mieru znalostí o materiáli bez toho, aby to prekážalo jeho využitiu v informačnom systéme.

Zavedenie popisov vo forme XML v rámci projektu MASTER viedlo k prvotnému popisu dokumentov voľnej a bádateľským potrebám prispôsobenejšej štruktúre MASTER a k následnému prepisu dát do pevnej formy DOBM. Teraz sa dokončujú prostriedky využívajúce iba XML. I tieto prostriedky budú voľne dostupné. Pôvodne podstatnú väčšinu popisov dokumentov zabezpečoval dosť rozsiahly kolektív spolupracujúcich odborníkov. Významné množstvo dokumentov si v súčasnosti popisujú ich majitelia sami. V záujme úspešnej spolupráce je nutné zaškolenie o potrebe dodržiavania niektorých formálnych pravidiel pri tejto činnosti. Napriek tomu mnoho partnerov využíva možnosť nechať si popísať dokumenty súčasne s digitalizáciou, pretože spolupracujeme s uznávanými odborníkmi, ktorí sú zárukou včasnosti a kvality popisov.

Digitalizácia

Technologické vybavenie má vo svojej histórii niekoľko “naj“. Prvá digitálna kamera KODAK bola prvou kamerou tohto typu v ČR a v tzv. východných štátoch. Taktiež prvá digitálna kamera BetterLight 6 000 bola prvá v Česku, a to v časoch, keď táto kamera bola ešte takpovediac neznáma. Bola vybraná na základe mimoriadnej kvality produkovaných obrazov a disponuje rozlíšením až 48 miliónov pixelov (neaproximované RGB).

Súčasnou špičkou je Special BookScaner 145 CRUSE. Ide o modifikáciu scanerov určených predovšetkým na snímanie obrazov a máp. Vznikol v priamej spolupráci firmy CRUSE a AiP Beroun, ktorá sa na jeho vývoji priamo podieľala. Je vo všetkých oblastiach optimalizovaný pre náročnú digitalizáciu vzácnych historických dokumentov. K vzniku tohto zariadenia prispelo paradoxne nerovnomerné a neisté financovanie projektov, ktoré spôsobilo, že bolo nevyhnutné rýchlo reagovať na neočakávané zvýšenie požiadaviek na digitalizáciu. Zariadenie vzniklo v priebehu troch mesiacov a firma AiP Beroun ho zabezpečila na leasing.

Posledné zariadenie založené na kamere BetterLight, ktoré nahradilo kameru KODAK, je už plne vyvinuté firmou AiP Beroun. Prináša zúročenie doterajších praktických skúseností a výrazne znižuje investičné náklady oproti predchádzajúcim nákupom univerzálnych zariadení. Toto zariadenie bude inštalované aj v Univerzitnej knižnici v Bratislave.

Všetky zariadenia sú optimalizované s prihliadnutím na bezpečnosť dokumentov, ľahkú manipuláciu s nimi a ich ochranu pred UV a IR žiarením. Tieto primárne požiadavky neovplyvňujú vysokú produktivitu a kvalitu na úrovni špičkovej štúdiovej práce.

Výroba digitálnych dokumentov

Digitálne obrazy sú spájané s predtým pripravenými popisnými dátami do formy dokumentu, ktorý obsahuje všetky popisné a technické informácie s využitím štandardov MASTER (predtým DOBM) a navyše vygenerované HTML súbory zväzujú obrazy do formy umožňujúcej prezerať dokumenty bežne dostupnými internetovými prehliadačmi.

Archivácia a ochrana digitálnych dát

Archivácia dát absolvovala zhruba tri obdobia:

1. V počiatkoch, koncom 90. rokov, nebola iná lacná možnosť archivácie väčších objemov dát než CD-R disky. Pracovníci AiP Beroun zabezpečili pre bezpečnú archiváciu na CD-R technológiu merania kvality záznamu, zabezpečili vyhodnotenie starnutia vytvorených médií (pozri programy Veda a výskum). Stratégia archivovania bola založená na existencii síce drahých, ale kvalitných a stabilných médií (KODAK Ultima Gold).

2. Boom využívania CD-R viedol k zlacneniu CD-R médií, čo spôsobilo, že z trhu zmizli drahé médiá vhodné na archiváciu. Kvalita médií však značne poklesla, pretože konkurenčný boj si vynútil znižovanie nákladov na výrobu, a to i za cenu nižšej kvality. Meracia technika na kontrolu kvality však ostávala stále veľmi drahá a jej cena ďalej stúpala, takže CD-R ako archivačné médium nebolo pespektívne.

3. Rok 2003 priniesol radikálnu novinku. Pokrok vo vývoji napaľovacích jednotiek priniesol ďalšiu generáciu IC obvodov na monitorovanie činnosti signálového procesora. To dáva reálnu možnosť s akceptovateľnými nákladmi zabezpečiť a overiť kvalitu produkovaných diskov s napálenými dátami a monitorovať ich starnutie. V prípade zjavného poklesu ich kvality možno informácie včas prepísať na nové médiá. Kvalita médií sa ďalším vývojom opäť stabilizovala a navyše AiP Beroun spolupracuje s výrobcom médií, čo umožňuje aj naďalej využívať CD-R ako archivačné médium. Samozrejme, pripravuje sa paralelné uloženie všetkých týchto vzácnych dát na vznikajúcich hromadných dátových úložiskách v Národnej knižnici ČR.

Výskumno-vývojové aktivity

V rámci týchto aktivít sa riešia programové projekty výskumu a vývoja:

V priebehu riešenia doterajších úloh vznikli mnohé prostriedky pre špeciálnu oblasť historických fondov vhodné na spracovanie a prezentáciu súvisiacich informácií. Prakticky sme overili postupy umožňujúce vytvorenie katalógu otvoreného pre akékoľvek existujúce dáta, a to bez ohľadu na ich pôvodnú formu. V krátkom čase budú na stránkach projektu MEMORIA voľne sprístupnené prostriedky na export/import dát do UNIMARC/MARC 21 a ich konverziu do formy MASTER.

Z39.50

Pripravuje sa poskytovanie dát prostredníctvom protokolu Z39.50. K systému sa zakúpi Z39.50 server podporujúci Bath profil Functional Area A level 1. Dáta budú odovzdávané vo formáte UNIMARC.

OAI

Na výmenu dát medzi kooperujúcimi systémami bude použitý protokol Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Dáta sa budú poskytovať a preberať vo formáte XML v štruktúre podľa DTD OpenM (NK Praha).

Druhy dát

V databáze Manuscriptorium sa stretávajú dáta rôzneho typu.

Dáta zastupujúce originály

  • Digitálne obrazy

Tieto dáta si kladú za cieľ čo najvernejšie nahradiť kontakt s originálnymi dokumentmi a tým originály nielen ochrániť, ale tiež rozšíriť možnosti ich využívania. Pri zabezpečovaní obrazových dát sa úzkostlivo dbá na úplnosť a vernosť vznikajúcich informácií vrátane zachovania informácií o farebnej kalibrácii. V súčasnosti je zdigitalizovaných 1 200 dokumentov, z ktorých je sprístupnených 1 059. To predstavuje vyše 500 000 obrazov.

  • Plné texty dokumentov

Predpokladáme, že na plné texty sa bude využívať štandard TEI. Sprístupňovať sa budú spravidla pragmatické edície historických dokumentov reprezentovaných v otvorenom katalógu historických fondov, prípadne aj v podobe digitálnej kópie, a texty sekundárnych dokumentov, ktoré sa vzťahujú na originály. Tento postup sa zatiaľ pripravuje a skúša.

Popisné dáta

Tieto dáta popisujú dokumenty a sú nevyhnutné na rešeršné účely, na nájdenie prístupu k originálom, resp. k dátam zastupujúcim originály. Sú to predovšetkým:

  • Popisné dáta, ktoré vznikli v súvislosti s digitalizáciou
  • Popisy dokumentov MASTER

Dokumenty, ktoré vznikli na základe projektu MASTER, predstavujú dáta, ktoré sú svojím spôsobom vzniku a použitým formátom blízke s predchádzajúcimi (tieto dáta predstavujú v súčasnosti asi 5 000 záznamov).

aip.jpg (185951 bytes)

Ďalšie dáta

Existuje množstvo ďalších dát, ktoré majú charakter od podrobných popisov až po stručné inventárne zoznamy. Teraz je dostupných asi 23 000 záznamov z týchto zdrojov.

Všetky vyššie uvedené dáta majú spoločného menovateľa – formát MASTER, v ktorom vznikajú alebo do ktorého sú v značnej miere prevoditeľné.

Spôsoby sprístupňovania dát

Základ sprístupňovania doposiaľ tvoria CD-R disky, ktoré sú použiteľné bez inštalácie špeciálnych programov ako dostatočná elektronická náhrada prístupu k obsahu originálnych dokumentov pre veľkú väčšinu bádateľov. Na CD-R diskoch sú v súčasnosti uchovávané taktiež archívne kópie dát. Čoraz väčší význam nadobúda sprístupnenie na internete, kde sú digitálne dokumenty sprístupňované v rámci elektronického online katalógu – databázy Manuscriptorium. Katalóg je vybavený výkonnými vyhľadávacími nástrojmi, ktoré sú prispôsobené špecifikám odboru.

Výber digitalizovaných dokumentov

Vďaka projektu VISK 6 a podpore Ministerstva kultúry ČR možnosť digitalizácie a sprístupnenia využívajú mnohé inštitúcie. Výber digitalizovaných dokumentov je poznačený množstvom nezávislých prispievateľov, rôznosťou ich odborných špecializácií a motiváciou k digitalizácii.

Častou motiváciou je ochranná digitalizácia – nahradenie prístupu k príliš využívanému originálu prístupom k jeho digitálnemu obrazu. Inštitúcie, ktoré už začali spoluprácu s projektom MEMORIA, sa však snažia postupne plne sprístupniť lokálne kolekcie významných dokumentov, ako aj vytvárať kolekcie nadinštitucionálne.

Je veľmi správne, že návrhy na zaradenie do digitalizácie schvaľuje menovaná komisia odborníkov, ktorá tvorí poradný orgán Ministerstva kultúry ČR. Celoštátne riadený výber dokumentov evidentne prispieva k vzniku tematicky súvisiacich kolekcií.

Napriek tomu, že sa už zjavne rysujú hranice tematických kolekcií, rozhodli sme sa na začiatok ponechať jediný kompletný digitalizovaný fond. Rozsiahle rešeršné nástroje vyhľadávacieho systému dovoľujú ľahko sa dostať k špecifickej ko-
lekcii a konkrétnym dokumentom.

Už teraz sú zjavné snahy niektorých bádateľov ovplyvniť ďalší postup digitalizácie konkrétnymi požiadavkami na doplňovanie vznikajúcich kolekcií. A práve jednou z úloh projektu MEMORIA je vyhovieť týmto potrebám. Je pravdepodobné, že využívaním databázy Manuscriptorium sa tento trend prehĺbi.

graf.jpg (61030 bytes)

Riadenie prístupu k digitálnym obrazom

Projekt umožňuje ľahké a bezplatné sprístupnenie akýchkoľvek dát prinášajúcich informácie o existencii historických dokumentov. Na druhej strane vznikajú dáta, ktoré sa zvyčajne neposkytujú celkom voľne a bezplatne. Preto rada projektu rozhodla a schválila, že časť informácií bude sprístupnená na základe prideľovania alebo predaja licencií.

Voľný prístup

Projekt MEMORIA predpokladá sprístupnenie akýchkoľvek dostupných dát nesúcich informáciu o existencii dokumentu a jeho základný popis. Pri dokumentoch, pri ktorých existuje digitálna kópia, je voľne dostupný kompletný náhľad do celého dokumentu v kvalite nevyhnutnej na orientáciu v dokumente.

Licencované sprístupnenie

Podrobnejšie informácie, predovšetkým obrazy vyššej kvality a v budúcnosti tzv. plné texty dokumentov, budú sprístupnené na základe udelenia licencie oprávňujúcej ich využívanie. Licencia reguluje zaobchádzanie s týmito informáciami v záujme projektu MEMORIA.

Bezplatne sú sprístupnené plné digitálne obrazy všetkým aktívne spolupracujúcim subjektom. Hľadá sa tiež možnosť poskytnúť hromadné licencie registrovaným knižniciam a odborným školám. Príjmy z predaja licencií sa budú používať na podporu ďalšieho rozvoja projektu a na podporu digitalizácie, predovšetkým na aktívne doplňovanie kolekcií.

Prístupy z internetu

Projekt MEMORIA a prezentácia jeho výsledkov na internete v databáze MANUSCRIPTORIUM prešla v roku 2003 rýchlym vývojom. Množstvo návštev webových stránok prekročilo naše očakávanie, denne sa pripája 50 rôznych pracovísk. Významná časť týchto návštev je zo zahraničia.

Veríme, že projekt bude zaujímavý a užitočný pre bádateľov i v časoch, keď stratí punc novosti a stane sa nástrojom bežnej práce.


Doplňujúca poznámka:

Univerzitná knižnica v Bratislave je od roku 2004 členom medzinárodného konzorcia MEMORIA a svojim čitateľom bude poskytovať plný prístup k dokumentom uloženým na www.memoria.cz.

V súčasnosti je v projekte MEMORIA zaradený titul z historického fondu UKB Masnicyus Tobiass – Správa písma českého a slovenského – prvá slovenská gramatika.

UKB bude priebežne spracúvať svoje historické fondy, ktoré v rámci projektu Memoria budú sprístupnené v sérii ExClariseum.

V súčasnosti UKB pripravuje zaradenie viacerých titulov z fondov Spišských historických knižníc, ktoré sa digitalizovali vďaka podpore z Nemecka (Projekt SPIŠ, ktorý inicioval Dr. Karl Wilhelm Neubauer). Zatiaľ je zaradený titul Haellische Chronik z Lyceálnej knižnice v Kežmarku.

Tlačiť Facebook Twitter LinkdeIN

Hodnotenie

Počet hodnotení: 8

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License

Ak sa neuvádza inak, obsah článkov podlieha licencii https://creativecommons.org/licenses/by/4.0/


ISSN 1336-0779 (online vydanie)  ISSN 1335-793X (tlačené vydanie)
© Centrum vedecko - technických informácií SR