Digitalizácia v Univerzitnej knižnici v Bratislave

Zo Slovenska

Úvod

Digitalizačné pracovisko UKB vzniklo v septembri 2004 ako samostatné oddelenie v rámci odboru ochrany dokumentov. V súčasnosti má 5 odborne zaškolených pracovníkov, ktorí vyrábajú, spracúvajú, distribuujú, publikujú a uchovávajú digitálne dokumenty. Digitalizácia sa tu chápe ako krok smerom k používateľovi a krok smerom k digitálnemu prostrediu, k takzvanej digitálnej knižnici. Ide predovšetkým o produkciu digitálnych údajov, ich publikovanie na webových stránkach knižnice a prípadne ich distribúciu za finančnú úhradu.

Oddelenie digitalizácie má dve pracoviská – laboratórium digitalizácie a skenovacie centrum, ktoré sú v prevádzke 12 hodín denne na dve smeny. Podľa toho možno produkciu digitálnych údajov rozdeliť na dve samostatné činnosti. Digitalizáciu a skenovanie, ktoré prebiehajú systematicky podľa plánov UKB, a príležitostne, na objednávku podľa potrieb čitateľov.

Do náplne oddelenia patria tieto činnosti: digitalizácia historických dokumentov vykonávaná na špeciálnom zariadení, skenovanie periodík a mikrofilmov a služba Scan & Go – samoobslužný skener pre čitateľov. Jednou z budúcich aktivít pracoviska je medzinárodný projekt Digitalizácia na objednávku, združujúci viaceré významné európske knižnice, ktorý predstavuje novú službu pre čitateľa. Služba sa zameriava na sprístupnenie dokumentov čitateľovi na požiadanie prostredníctvom nových technológií a ich doručenie prostredníctvom služieb elektronickej pošty internetu v podobe elektronickej knihy s možnosťou plnotextového vyhľadávania.

Digitalizácia

Digitalizácia sa zameriava na historické dokumenty, pretože sa vykonáva na špeciálnom zariadení, ktoré bolo navrhnuté tak, aby presne spĺňalo prísne kritériá zaobchádzania s týmto typom dokumentov. Zariadenie sa skladá zo špeciálnej otrasuvzdornej kovovej konštrukcie, ktorá je vybavená posuvným manipulačným stolíkom a špeciálnymi lampami. Lampy i stolík je možné podľa potreby posúvať hore-dole, doprava-dol’ava. Oproti stolíku sa na koľajničkách v hornej časti konštrukcie nachádza digitálna kamera schopná nasnímať farebný obraz s rozmermi asi 80 x 60 cm, maximálne rozlíšenie kamery je 443 DPI. Kamera komunikuje s Apple Macintosh počítačom so špeciálnym softvérom, na ktorý sa viaže IBM počítač s programami na úpravu obrazových údajov [4].

pirova1.gif (157288 bytes)
  Zariadenie na digitalizáciu historických dokumentov

Oddelenie starých tlačí a rukopisov doručí historický dokument na digitalizáciu. Digitalizátor preskúma dokument, čo slúži na to, aby dokázal správne nastaviť farebnú kalibráciu kamery, správne osvetlenie (dokument nesmie byť presvietený ani nedosvietený) a najmä DPI výstupného obrazu. Hustotu obrazu, teda DPI, stanovujeme prevažne podľa toho, aké veľké sú litery v digitalizovanom dokumente. Ak ide o dokument s veľkými a jasne čitateľnými literami s minimom ilustrácií (napr. vinety či iniciály), je možné zvoliť DPI nižšie ako 350 bodov. Naopak, pri ilustráciách, ilumináciách a podobne je dôležité zachovať pôvodnú informáciu, teda ilustrácia musí byť detailná aj pri maximálnom zväčšení, použijeme DPI 350 a vyššie. Ak raz urobíme nastavenia, tie sa pre daný dokument nemenia, zostávajú rovnaké až do ukončenia procesu digitalizácie. Dokument, historickú knihu, položíme na stolík tak, aby kamera videla konkrétnu stranu knihy pod uhlom 90 stupňov. Kniha si drží svoju polohu na stolíku vďaka protišmykovým podložkám, pričom pri digitalizovaní sa len otáča jednotlivými listami, takže najprv digitalizujeme len všetky pravé strany listov, teda recto. Po dokončení knihu otočíme a digitalizuje sa len verso strana. Okrem samotných listov knihy sa digitalizujú dosky, prídoštia, prelimináriá, chrbát, oriezka a dokonca i prázdne strany. Ciel’om je zachytiť knihu tak, ako v skutočnosti vyzerá – so špinavými listami, zahnutými rožkami strán alebo doliatymi chýbajúcimi časťami listov po reštaurátorskom zásahu. Preto i osvetlenie musí zostať nemenné, aby sme zabezpečili rovnomerné a rovnaké nasvietenie celého dokumentu, čím dosiahneme reálnejší výsledok.

Kamera ovládaná počítačom Apple Macintosh zdigitalizuje konkrétnu predlohu podľa nastavení digitalizátora, ktorý expeduje hotový obraz vo formáte TlFF do predvoleného priečinku v IBM počítači. Tam ho digitalizátor v programe Photoshop oreže takým spôsobom, aby na konečnom obraze bolo vidieť celú neporušenú stranu knihy plus asi 4 až 5 mm pozadia po jej okrajoch. Takýto postup slúži na to, aby bol budúci reštaurátor (alebo tlačiar) schopný vytvoriť presný originál konkrétneho obrazu. Hotové orezané obrazy sa dočasne uchovávajú v priečinku, z ktorého sa po kompletnom zdigitalizovaní exportujú po linke do ďalšieho IBM počítača, kde sa z každého jedného obrazu v programe Photoshop vytvárajú tri kvality obrazu. Jedna slúži na publikovanie na internete (jeden obraz má asi 150 kB), druhá na archívne účely (asi 3 MB pri formáte A4) a treťou je používateľská kvalita určená na zápis na CD pre používateľa do študovne (asi 500 až 700 kB). Ďalej sa k takto upraveným obrazom pridá popis a technické údaje v XML a stáva sa z nich kompletná a kompaktná digitálna kniha publikovaná na našich webových stránkach [2].

Summa summarum, do vybavenia pracoviska patrí jeden Apple Macintosh počítač, tri IBM počítače, digitálna kamera, softvér na ovládanie kamery, program Adobe Photoshop a program MEdit na tvorbu XML dát, TDedit na pridanie technických údajov k výstupu z MEditu, MGen na tvorbu výstupov, ktorý spojí popis dokumentu vo formáte XML a obrazy, čím vytvorí výstup na CD alebo internet.

Filozofia digitalizácie je verne zachytiť originál, zachrániť poškodené, publikovať skryté a prezentovať dokumentárne dedičstvo Slovenska.

Skenovanie

Výroba digitálnych dokumentov skenovaním sa deje v súčinnosti s oddelením MVS a oddelením viazaných periodík.

Pri vybavovaní svojich žiadaniek MVS vytlačí špeciálnu žiadanku obsahujúcu čiarový kód a zároveň žiadanku zahrnie do systému, resp. databázy MyBIB, v ktorom sa žiadanky spravujú [1]. Digitalizátor najprv zoskenuje žiadanku, skener prečíta čiarový kód, priradí zoskenovaný obraz

k žiadanke v systéme MyBIB a ďalej pokračuje v skenovaní podľa požiadaviek čitateľa. Po dokončení práce je žiadaný dokument transferovaný vo formáte PDF na server UKB, kde sa uchováva asi 90 dní. Čitateľovi príde do mailovej schránky notifikačný mail obsahujúci hypertextovú linku smerujúcu k tomuto dokumentu, ktorý si skopíruje do svojho počítača a použije ho. Na tomto princípe funguje aj doručovanie kópií z mikrofilmov či periodík. PDF dokumenty vytvárame pri väčších objednávkach, menší počet kópií zasielame jednoducho vo formáte JPG čitateľovi priamo do jeho schránky.

Po vybavení žiadaniek všetkých čitateľov sa digitalizátor aj na tomto pracovisku venuje digitalizovaniu dokumentov podľa požiadaviek iných oddelení knižnice, ktoré sú určené na publikovanie na internete, opäť s takým istým pracovným postupom a zásadami ako na pracovisku digitalizácie.

Táto sekcia oddelenia má k dispozícii pracovnú linku skladajúcu sa z planetárneho skenera Bookeye GS400, ktorý skenuje čiernobielo a do 256 odtieňov šedej až do veľkosti formátu A2, čítačky a kopírky mikrofilmov a tlačiarne pre formát A4 a A3. Softvérovo je linka vybavená programom BCS2 a databázou MyBIB na administráciu objednávok.

Scan & Go        

UKB poskytuje svojim čitateľom službu nazvanú Scan & Go, ktorá čitateľom umožňuje samostatne zoskenovať žiadaný dokument a študovať si ho doma.

Hardvérovo i softvérovo je služba riešená rovnako ako na pracovisku skenovania. Systém si po zoskenovaní prvej strany dokumentu od čitateľa automaticky vypýta identifikačný údaj, ktorým je číslo jeho čitateľského preukazu, priradí ho k zoskenovanému obrazu a čitateľ môže pokračovať v skenovaní. Po ukončení práce mu prídavná tlačiarnička vytlačí potvrdenie o vykonanej objednávke. Z objednávky systém vytvorí PDF súbor, ktorý odošle na jemu prislúchajúci server UKB a zároveň vygeneruje jeho hypertextovú linku, ktorá sa odošle do Študovne elektronických dokumentov. Odtiaľ konzultant čitateľovi podľa jeho objednávky zašle hyperlinku do jeho mailovej schránky.

Na pracovisku je podrobný návod na použitie, v prípade potreby je tu aj digitalizátor schopný poskytnúť odbornú pomoc. V záujme rešpektovania autorských práv majú čitatelia k dispozícii aj autorský zákon.

Služba je veľmi obľúbená. Dokazuje to aj fakt, že za posledných 12 mesiacov čitatelia vytvorili takmer 60 000 kópií dokumentov.

Digitalizácia na objednávku

V nadväznosti na uvedené existujúce hardvérové a softvérové riešenia a naše skúsenosti bola UKB prijatá do medzinárodného projektu nazvaného Digitalizácia na objednávku (Digitisation on demand, skratka DoD), ktorý je podporovaný Európskou úniou a patrí do 6. rámcového programu eTEN a spúšťa sa 1. septembra tohto roka.

DoD predstavuje novú službu knižnice z oblasti doručovania dokumentov. Cieľom projektu je sprístupniť používateľom tisíce kníh prostredníctvom internetu a najnovších technológií. Na požiadanie používateľa mu bude zdigitalizovaný dokument a doručený cez internet ako elektronická kniha s možnosťou plnotextového vyhľadávania. Zároveň bude možné už zdigitalizované dokumenty včleniť do už jestvujúcich digitálnych knižníc, takže sa stanú dostupné pre širokú verejnosť. Služba je určená pre kohokoľvek s prístupom na internet, neexistujú žiadne obmedzenia skupín používateľov, to znamená, že služba je dostupná nielen registrovaným čitateľom a používateľom knižníc, ale aj komukoľvek inému.

pirova2.jpg (58680 bytes)
Skener Bookeye GS400

Službu bude poskytovať sieť európskych knižníc. lniciátorom projektu je Univerzitná knižnica v Innsbrucku, ktorá má v tomto projekte funkciu centrálneho uzla, na ktorý sú napojené lokálne uzly, teda jednotlivé partnerské knižnice, a to Estónska národná knižnica, Humboldtova univerzitná knižnica v Berlíne, Viedenská univerzitná knižnica, Univerzitná knižnica v Grazi, Regensburgu a Greifswalde, Rakúska národná knižnica, Kráľovská knižnica Dánska, Národná a univerzitná knižnica Slovinska, Národná knižnica Portugalska a Maďarska a UKB. Ak je partnerská knižnica jediná v krajine, ako napr. UKB, je možné, že sa lokálny uzol stane centrálnym uzlom pre krajinu, čo znamená, že pre Slovensko bude UKB centrom a s ňou budú spolupracovať ďalšie inštitúcie (knižnice, archívy a podobné inštitúcie súkromného či verejnosprávneho charakteru), ktoré budú mať o službu záujem. Spolupráca s ďalšími partnermi bude založená na výmene dokumentov a ochote prispievať k otváraniu fondov a sprístupňovaniu dokumentárneho poznania.

Architektúra služby z pohľadu čitateľa 

Služba sa uskutočňuje výlučne v prostredí internetu a čitateľ vôbec neprichádza s knižnicou do kontaktu, čím sa urýchli celý proces služby.

Čitateľ si v online katalógu svojej knižnice (ktorá je partnerským lokálnym uzlom) vyhľadá potrebný dokument a prostredníctvom elektronického objednávkového formulára si dokument objedná, resp. objedná si konkrétne časti dokumentu. Vyplnený formulár, teda objednávku, odošle svojej knižnici, automaticky sa mu spätne doručí potvrdenie o jej prijatí a knižnica ju spracuje. Objednávka sa spracuje tak, že sa konkrétny dokument digitálne zoskenuje, spracuje technológiou OCR a transformuje do formátu PDF. Následne čitateľ obdrží elektronickou poštou hyperlinku, pod ktorou sa nachádza formulár na online uhradenie poplatku za službu, a až pod ním, po uhradení, samotný dokument. Finančná transakcia prebehne cez internet prostredníctvom nezávislého poskytovateľa finančných služieb.

Architektúra služby z pohľadu partnerskej knižnice

Centrálny uzol prevádzkuje spoločnú databázu na svojich webových stránkach, kde sa nachádzajú záznamy všetkých transakcií a kompletný tok práce pre všetky objednávky.

Úlohou lokálneho uzla je manipulácia s dokumentom, určenie cien za službu a digitalizácia žiadaných dokumentov. Zdigitalizovaný dokument sa uloží do špeciálneho súboru na sieti a ďalej ho spracúva centrálny uzol, ktorý taktiež zodpovedá za vyúčtovanie služby s čitateľom a jeho sprístupnenie downloadovacou službou. Knižnica, u ktorej objednávka vznikla, dostane naspäť digitálny dokument obohatený o fulltext a metadáta. Tento produkt môže zaradiť do svojej digitálnej knižnice.

Služba je určená pre dokumenty všetkých typov a druhov – od historických tlačí cez periodiká 19. storočia, diplomové práce, periodiká, monografie až po najnovšie encyklopédie, beletriu, literatúru v študovniach, učebnice, zborníky a podobne, tlačené či mikrofilmované.

Výhody služby DoD:

  • Tým, že produkuje len digitálnu kópiu dokumentu, má služba ekologický rozmer.
  • Služba je nastavená tak, aby bola po čase samoudržateľnou.
  • DoD sa orientuje nielen na registrovaných čitateľov knižnice, ale o službu môže požiadať aj neregistrovaný člen.
  • Sekundárnym produktom služby je možnosť tvorby a doplňovania voľne dostupnej digitálnej knižnice, ktorá sa bude budovať takým tempom, akým budú narastať požiadavky na službu.
  • Povaha služby umožňuje orientovať sa na akékoľvek typy a druhy dokumentov vrátane historických či mikrofilmovaných, čím úplne otvorí možnosti prístupu k nim.
  • Služba poskytuje to, čo žiada jeden, viacerým za predpokladu, že bude existovať databáza komprimujúca všetky predchádzajúce objednávky.
  • Čitateľ môže kontaktovať knižnicu online, bez osobného kontaktu, čo nesmierne šetrí čas a má veľký význam napr. pre                  mimobratislavských čitateľov.
  • UKB bude vystupovať ako centrálne pracovisko pre Slovensko, takže v záujme nutnosti jednotných pracovných postupov bude zároveň metodickým a školiacim centrom pre tento typ služby.

Model služby je založený na spolupráci knižníc v konkrétnej krajine, to znamená, že čitateľ si môže dokument vyhľadať v katalógu ktorejkoľvek knižnice v krajine a UKB si ho vyžiada prostredníctvom MVS. Tu sa vynára otázka, do akej miery sa služba DoD ponáša na MVS či dokonca Document delivery. Samozrejme, že by nebolo rozumné zavádzať ďalšiu knižničnú službu, ktorá by sa rovnala existujúcej, preto v nasledujúcich riadkoch uvádzam tieto rozdiely.

V súčasnosti UKB v rámci svojich služieb ponúka tri služby, ktoré sú na prvý pohľad rovnaké ako DoD. Prvou z nich je služba skenovania dokumentu na samoobslužnom skeneri samotným čitateľom. Zariadenie je také isté ako používa digitalizátor na skenovacom pracovisku. Čitateľ pred začatím skenovania zosníma kód svojej kartičky čítačkou čiarových kódov, pod ktorými sa evidujú a rozlišujú jednotlivé žiadanky, a ďalej skenuje podľa potreby. Po ukončení procesu skenovania sa mu jeho objednávka (to, čo zoskenoval) automaticky pošle do študovne elektronických dokumentov, kde si ho vyzdvihne. Rozdiel medzi touto službou a DoD je v tom, že čitateľ si tu nemôže zadefinovať parametre skenovania, lebo tie sú pre túto službu nastavené štandardne a všeobecne, čitateľ si napr. nemôže upravovať zosnímaný obraz a podobne.

Druhou službou podobnou DoD je MVS. Tu je rozdiel a výhoda DoD v tom, že sa môže orientovať aj na historické tlače, nielen na novodobé. Navyše v „papierovej MVS“, teda ak sa vyhotovuje papierová kópia pre čitateľa, táto je určená len pre konkrétneho čitateľa, objednávka je tak veľmi osobná a uzavretá, nie vždy použiteľná aj pre iného čitateľa. DoD však už hotové objednávky vystavuje v databáze a sú k dispozícii ostatným, teda z jednej objednávky môžu mať prospech viacerí.

Čo sa týka „elektronickej MVS”, teda služby Document delivery, táto môže byť treťou konkurentkou DoD a najviac sa k nej približuje. Opäť sa však nešpecializuje na historické tlače, jednotlivé objednávky sú vysoko personalizované, čitatel’ dostane „obrázok textu“, nie text samotný.

Službu DoD môžeme porovnať aj s už existujúcou službou, ktorú poskytuje svojim čitateľom a používateľom Referenčné oddelenie NKP. Služba nazvaná Just-for-you digitisation service na základe elektronickej objednávky čitateľa vyhotoví digitálnu kópiu dokumentu, doručí mu ju elektronickou poštou a z jeho konta mu odráta finančnú úhradu za službu. Myšlienka virtuálneho kontaktu čitateľa s knižnicou je dodržaná, avšak čitateľ musí vložiť peniaze na svoje konto buď osobne, alebo poštovou poukážkou.

Dôležitým bodom projektu je i autorský zákon. Projekt je nastavený tak, aby sa každá zo zapojených krajín mohla riadiť svojím autorským zákonom. Pri službe DoD sú teda všetky dokumenty približne do roku 1900 voľne distribuovateľné i ako neprerušené celky. Čo sa týka novších dokumentov, v UKB platí zákaz kopírovania celých prác, avšak z vlastnej skúsenosti môžem povedať, že čitatelia len veľmi výnimočne žiadajú o skopírovanie celého dokumentu. Vo väčšine prípadov majú záujem o zopár strán, prípadne celú kapitolu. Kopírujú si len to, čo skutočne potrebujú. Nepredpokladám, že by v budúcnosti v súvislosti s touto službou zmenili svoj postoj. Je možné službu DoD nastaviť len pre dokumenty do r. 1900. Predpokladám však, že by tak stratila veľa potenciálnych používateľov.

Za nevýhody či problémové otázky služby DoD môžu byť považované nasledujúce skutočnosti:

  • Pri transporte dokumentov z ostatných inštitúcií v krajine bude nevyhnutné posielať ich poštou či iným adekvátnym spôsobom (podobne ako MVS), čím narastajú finančné náklady na službu, čakacia doba na dokument, hrozí riziko jeho straty či poškodenia a pod.
  • Čitateľ už pri objednávaní musí presne vedieť, o ktorú časť dokumentu má záujem, čo môže byť problém, ak nemá predchádzajúce skúsenosti s konkrétnym dokumentom.

Keďže ide o úplne novú službu, aká svojím charakterom nemá obdobu, bude vhodné vedieť, akým spôsobom na ňu bude reagovať čitateľ. Bude služba rentabilná pre knižnicu aj po skončení projektu? Bude mať čitateľ záujem o službu? Je/bude schopný adekvátne použiť jej produkt? Je možné očakávať jeho návrat ku službe? Aké sú jeho očakávania? Ktorej skupiny čitateľov sa bude týkať? Tieto a ďalšie otázky je nevyhnutné zodpovedať, aby sme mohli jasne určiť budúcnosť služby.

Oslovila som Katedru knižničnej a informačnej vedy FiF UK v Bratislave a ponúkla som im spoluprácu, ktorá znamená čiastočné rozpracovanie problematiky DoD a digitalizácie na teoretickej úrovni a vypracovanie dotazníka a analýzu získaných údajov na praktickej úrovni. Moja ponuka bola akceptovaná, problematiku DoD si vybrali dvaja študenti ako predmet ich dvojsemestrového kurzu. K dnešnému dňu je vypracovaný teoretický základ a s adresovaním respondentov sa začne v septembri v našej knižnici. Čo sa týka prieskumu používateľov, bolo stanovených viacero hypotéz, napríklad:

  • Potenciálni používatelia služby DoD sú schopní svojimi poznatkami a schopnosťami použiť/využiť službu a efektívne využiť produkt služby tak, aby im priniesol úžitok.
  • Ak ide o historické tlače, čitateľ má veľký záujem o službu.
  • Používateľom služby budú predovšetkým študenti, vysokoškolskí pedagógovia a odborníci z tejto oblasti.
  • Služba bude používateľmi vyhľadávaná v takom rozsahu a frekvencii ako pri ostatných službách knižnice, teda nepredpokladá sa nadmerný záujem o služby či úplný nezáujem čitateľov.

Metódy a prostriedky prieskumu sú dotazník pre čitateľov, ktorí budú oslovení priamo v UKB, dotazník pre knižnice či iné inštitúcie, ktoré majú záujem o digitalizáciu, osobný rozhovor s potenciálnymi používateľmi služby v UKB, elektronický dotazník určený pre používateľa vystavený na webových stránkach UKB (dobrovoľný), analýza už vyhotovených objednávok z ľubovoľných hľadísk.

Prieskum, nech už bude výsledok akýkoľvek, sa ukončí v januári a bude obsahovať najnovšie informácie a poznatky o tom, aký je postoj čitateľa k tejto službe, zistíme, aké sú jeho očakávania a požiadavky. Tieto poznatky budú svojou aktuálnosťou vynikajúcimi svedkami rentability služby. Služby podobné DoD poskytujú aj iné knižnice, výsledky z prieskumu budú relevantné aj pre iné inštitúcie než len UKB, preto sa UKB rozhodla, že usporiada menší seminár, na ktorom sa budú prezentovať výsledky tohto prieskumu.

Na základe uvedeného môžu vzniknúť takéto otázky:

  • Chce čitateľ obrazový či textový súbor?

Predpokladám, že pri novodobých dokumentoch, ako napr. zborníky či noviny z minulého storočia, bude čitateľa zaujímať text, zatiaľ čo pri historických dokumentoch sa bude orientovať skôr na obraz a text bude druhoradý. Bolo by vhodné hneď v objednávkovom formulári sa spýtať čitateľa, čo má byť výstupom zo služby.

  • Má byť objednávkový formulár včlenený do online katalógu UKB?

Pre čitateľa by bolo mimoriadne pohodlné a jednoduché, keby sa objednávkový formulár DoD nachádzal priamo v online katalógu, v ktorom vyhľadáva a z ktorého si chce objednať dokument.

  • Ako sa čitateľ dozvie o DoD službe?

Pri propagovaní služby čitateľom (napr. na výveskách, na plagátoch, špeciálnymi exkurziami, na odborných seminároch) treba nájsť to, čo ju odlišuje od ostatných služieb zaoberajúcich sa produkciou e-dokumentov a vyzdvihnúť výhody a dôvody, prečo využiť práve túto službu.

  • Budú sa digitalizovať iné ako len knižné materiály?

Projekt primárne hovorí o digitalizácii kníh, avšak je možné zahrnúť do projektu i iné typy dokumentov, napr. plagáty, obrazy, fotografie či listiny.

  • Bude možné digitalizovať historické dokumenty bez obmedzenia?

Je možné, že v spolupráci s Kabinetom starých a vzácnych tlačí v UKB vyberieme len časť fondu historických dokumentov, ktoré budú k dispozícii pre službu DoD vzhľadom na povahu týchto dokumentov.

  • Bude softvér OCR schopný prečítať historický dokument?

Technológia OCR je založená na tom, že systém dokáže sám automaticky „prečítať“ predložený text. Jednotlivé znaky (písmená) rozoznáva na základe ich grafického vzhľadu (teda najlepšie prečíta tlačený dokument, pretože písmená sú od seba jasne odlíšiteľné a neprelínajú sa, nemajú ligatúry a majú presne štandardizovaný tvar) a znaky skladá do slov pomocou vopred nadefinovaného slovníka, ktorý možno stále rozširovať novými termínmi.

Táto otázka sa netýka novodobých tlačených dokumentov ani historických dokumentov tlačených (antikvou či iným podobným typom písma). Otázka sa týka predovšetkým historických rukopisných dokumentov. Bol vyvinutý softvér schopný prečítať rukopisy s (neo)gotickým písmom (bastarda, švabach a fraktúra), čo však s ostatnými rukopismi najmä mladšieho dátumu? Ide o to, že staré knihy sú zväčša písané rukou a zväčša viacerými pisármi, to znamená, že každá litera je odlišne napísaná, každá ruka má iný sklon písma, iný ductus a podobne. Navyše text často obsahuje množstvo skratiek a ligatúr, ktoré si vytváral sám pisár. Takto písaná môže byť napr. matrika či kronika obce, preto som v oblasti strojového rozoznávania jednotlivých znakov mierne skeptická. Druhá stránka problému súvisí so slovenčinou, resp. dobovou slovenčinou, preto bude bezpodmienečne nutné nadefinovať slovník OCR softvéru.

Riešenie problému má dve cesty. Buď dopredu upozorníme čitateľa, že mu doručíme dokument s chybami (softvér chybne prečíta slovo), alebo budeme z historických fondov produkovať len obrazové dáta bez vygenerovaného textu.

  • Nakoľko nás pri službe bude limitovať autorský zákon?

V súčasnosti digitalizujeme z historických fondov UKB a túto produkciu voľne vystavujeme na našich webových stránkach. Jednotlivé obrazy sú chránené vodoznakom. Tento vytvára softvér Photoshop a je neodstrániteľný. To znamená, že návštevník našich stránok si síce môže vytlačiť, čo potrebuje, ale ako „vlastnícka značka“ sa mu vytlačí i spomínaný vodoznak. (Vodoznakom    ošetrené digitálne obrazy nájdete na: http://www.ulib.sk/index/go.php?id=883). Čo sa týka služby DoD, UKB zváži, či bude viditeľným alebo neviditeľným posesorom a producentom digitálnych dát.

  • Ako prepravovať dokumenty z iných inštitúcií?

Otázka sa týka najmä historických dokumentov a je zároveň prvou otázkou inštitúcií uchovávajúcich tento druh dokumentov. Keďže iné inštitúcie nemajú digitalizačné pracoviská, musia nám byť ich dokumenty doručené, čo je s ohľadom na povahu historických dokumentov veľmi riskantnou záležitosťou. Existuje i iný spôsob dopravy než služby pošty?

  • Je DPI v rozmedzí 300 až 400 bodov dostačujúce?

Táto otázka sa týka aj digitalizačného pracoviska. Áno, toto rozlíšenie je dostačujúce pre čitateľa a ak bude mať požiadavku na vyššie rozlíšenie, je možné mu vyhovieť. Jediný problém je, že úmerne s vyšším rozlíšením narastá i kapacita obrazu ako súboru. Obraz formátu A4 pri 600 DPI, ktoré MINERVA určuje za štandard, uložený ako TIFF má 100 MB, zatiaľ čo pri 300 DPI má len 25 MB. Sme limitovaní úložnými kapacitami a pre rýchlosť našej produkcie je rozumné použiť rozlíšenie 300 – 400 DPI, pričom produkujeme obrazy formátu TIFF i JPG.

Na záver ponúkam už len jednu doplňujúcu informáciu, ktorou je správa z mojej januárovej pracovnej cesty z Bruselu, ktorá ponúka iný pohľad na službu DoD (3). Zároveň privítam Vaše otázky, pripomienky či postrehy.


Zoznam prameňov:

Online formulár (M)MVS žiadanky http://www.issn.sk/php/mvs_form.php3
Digitálne dokumenty z historického fondu UKB http://www.ulib.sk/index/go.php?id=884&lang=sk
Správa z pracovnej cesty z Bruselu http://www.ulib.sk/index/go.php?id=1112&idf=388&lang=sk
Vybavenie laboratória digitalizácie UKB http://www.ulib.sk/index/go.php?id=723

Zdieľať:
Obsah čísla