Obohatenie bibliografických záznamov o digitalizované a plnotextové prvky a ich intergrácia do online katalógu v knižnici CVTI SR

PredstavujemeCVTI SRDaWincisúborné katalógy

CVTI SR ako špecializovaná vedecká knižnica na technické odbory a vybrané oblasti prírodných, ekonomických a humanitných vied využíva na poskytovanie informačných a knižničných služieb knižnično-informačný systém DaWinci. Súčasné technológie, ktorými je CVTI SR vybavené, ponúkajú možnosť obohatenia bibliografických záznamov v online knižničných katalógoch o digitalizované prvky alebo plné texty, ako sú obálky a obsahy kníh, resp. zdigitalizované časti textov kníh a časopisov. Prepojenie s digitálnym obsahom ponúka používateľom z radov odbornej i laickej verejnosti možnosť vizualizácie a pri zapojení sofistikovaných metód plnotextového indexovania aj vyšší komfort pri vyhľadávaní dokumentov.

O vybudovaní takéhoto prepojenia sme reálne začali uvažovať až počiatkom roku 2010, keď v rámci organizácie nastali priaznivé podmienky pre takúto aktivitu. Pod priaznivými podmienkami rozumieme prechod na nový KIS DaWinci , ktorý prostredníctvom dodávateľskej firmy ponúka možnosť jeho rozširovania a prispôsobovania individuálnym požiadavkám, možnosť využitia vlastnej digitalizačnej technológie aj s obslužným personálom, a najmä podporu iniciatívy odboru rozvoja informačných systémov (ORIS) zo strany vedenia organizácie. Iniciatíva bola konkretizovaná formou spracovania projektovej štúdie, ktorá obsahovala analytickú časť, kompletný návrh riešenia, harmonogram prác i rozpočet. Podpora zo strany vedenia značila predovšetkým schválenie návrhu, vyčlenenie navrhovaných technických i ľudských kapacít pre riešenie a uvoľnenie finančných prostriedkov.

Jediným nepriaznivým faktorom zostala otázka legislatívy, pretože problematika zverejňovania obálok alebo tematického obsahu v katalógu zbierok nie je v autorskom zákone Z. z. 618/2003 z 4. 12. 2003 explicitne opísaná a ani doterajšie iniciatívy o nastolenie zmeny neboli úspešné.

Prioritným cieľom interného projektu bola agregácia rôznych zdrojov informácií o dokumentoch (väčšinou o tlačených knihách), ktoré by v jednom úložisku zhromažďovali rôzne údaje a prvky pre obohatenie bibliografického záznamu. Tieto prvky by využívalo predovšetkým CVTI SR s neskoršou perspektívou benefitu aj pre iné knižnice SR, ktorým by bolo umožnené ich integrovanie do ich vlastných knižničných katalógov.

Nemenej podstatným cieľom bola však aj ponuka vyššej kvality rozšíreného vyhľadávania dokumentov v online katalógu, ktorá sa dosiahne prevedením digitalizovaných obsahov dokumentov do textového tvaru, následným vytvorením plnotextového indexu a rozšírením funkcionality vyhľadávania aj o vyhľadávanie v obsahoch kníh.

Riešenie je realizované na lokálnej úrovni, teda že CVTI SR projekt realizuje z vlastných prostriedkov a prevádzkuje v prvej etape pre používateľov vlastnej knižnice, bez prepojenia na iné podobné systémy a úložiská. Využívame najmodernejšie technológie, ktoré umožňujú efektívne ukladanie a prehliadanie viacstránkových dokumentov, ich zneprístupnenie pre tlač, kopírovanie a pod. a súčasne sú kompatibilné s technológiami umožňujúcimi plnotextové vyhľadávanie.

Pri návrhu technického riešenia sme zohľadnili nasledujúce skutočnosti:

  • možnosť rozšírenia databázy do budúcna napr. o plné texty kníh;
  • kompatibilita v prípade spolupráce s inými organizáciami a knižnicami, teda podobnosť formátov, identifikátorov – nie však so zastaranými technológiami;
  • identifikátory, ktoré zaručia spárovanie v systéme DaWinci i kompatibilitu: základom je kód ISBN, resp. naša signatúra;
  • vytvorenie vlastného úložiska obálok a obsahov kníh spojeného s KIS DaWinci;
  • veľkosť úložiska – na začiatok sa počíta s kapacitou postačujúcou na asi 5 rokov s možnosťou rozšírenia;
  • využitie technických zariadení (skenery) a softvérové vybavenie, ktoré je v CVTI SR už k dispozícii;
  • rozšírenie knižničného systému o nové funkcionality a vytvorenie úložiska digitálnych prvkov sa zrealizuje v spolupráci s dodávateľom KIS DaWinci a bude zahrnovať:
    • zobrazovanie obálok a obsahov kníh,
    • rozšírenie možnosti vyhľadávania o plnotextové vyhľadávanie v obsahoch,
    • návrh a vytvorenie databázy uložených naskenovaných prvkov s možnosťou rozšírenia o iné prvky,
    • špeciálny, používateľsky prívetivý prehliadač viacstránkových zdigitalizovaných dokumentov,
    • riešenie bude obsahovať možnosť operatívneho schovania obálky/obsahu v OPAC-u. Tiež bude voliteľné, či obálky/obsahy budú viditeľné len pre prihlásených používateľov alebo pre všetkých, resp. len z lokálnej siete (študovne);
    • obsahy nebudú prístupné na tlač ani kopírovanie.

Spracovanie dokumentov v digitalizačnom pracovisku je novým krokom v procese zaraďovania nového dokumentu do fondu knižnice CVTI SR. Tento medzikrok zahrnuje predovšetkým výber dokumentov a ich odovzdanie do digitalizačného pracoviska, skenovanie, kontrolu a úpravu skenov, rozpoznanie textu cez OCR softvér a transformáciu do dvojvrstvového formátu .pdf. Nakoniec sú obálky aj obsahy dokumentov zaslané do úložiska na finálnu kontrolu a originály dokumentov sú posunuté na ďalšie spracovanie do odboru knižničných fondov. Spracovávajú sa paralelne aj vybrané tituly prírastkov z rokov 2008 – 2011.

Špecifikácia softvérových úprav

Riešenie vyžadovalo pomerne rozsiahle úpravy KIS DaWinci a jeho rozšírenie o nové funkcionality. Úpravy zahŕňali najmä pridanie možnosti zaradenia digitalizovaných prvkov, možnosť operatívneho nastavenia typu viditeľnosti jednotlivých prvkov (nikto, prihlásení, všetci, len z lokálnej siete), dodávka a aktivácia DAWINCI služby – storage and fulltext, čím sa umožnilo uložiť plain texty obsahov dokumentov do plnotextového indexu a zabezpečiť novú kvalitu vyhľadávania v obsahoch kníh; možnosť importovania skenov do systému dávkovým spôsobom; úpravy modulu OPAC v súlade s požiadavkami na prezentačné vlastnosti; integrovanie špeciálnej prehliadačky PDF súborov (obsahy), ktorá zabezpečuje, že používatelia nemusia mať na svojom počítači inštalovaný Adobe Reader a umožňuje používateľsky prívetivé prezeranie viacstránkových obsahov kníh a pod.

obr.  1 Zobrazenie detailu záznamu s náhľadom obálky a ikonou obsah

Implementácia

Požadované softvérové úpravy systému DaWinci sme zrealizovali dodávateľským spôsobom a prebehli hladko, možno aj preto, že bola „na papieri“ pomerne kvalitne spracovaná špecifikácia požiadaviek. Vyvinuté softvérové komponenty sme v 1. fáze nainštalovali a testovali vlastnými pracovníkmi.

Nová funkcionalita „Obálky a obsahy“ bola uvedená do pilotnej prevádzky začiatkom roku 2011, ktorá trvala asi 1 mesiac a počas ktorej sme doladili jednotlivé komponenty nadstavby systému. Počas tejto doby sme vypracovali aj metodický pokyn prevádzkovania „Obálok a obsahov“ a dokumentáciu. Po skončení pilotnej prevádzky prešiel systém s novou funkcionalitou v podstate plynulo do ostrej prevádzky. Z obsahov sa pre potreby vyhľadávania vytvára plnotextový index, ktorý funguje bezchybne a je najväčším benefitom riešenia. Plnotextové vyhľadávanie umožňuje vyhľadanie všetkých slov zapísaných do vyhľadávacieho poľa v rozšírenom vyhľadávaní s podmienkou Slová z obsahu (pozri obr. 2). Obálky a obsahy kníh sa zobrazujú teraz len registrovaným a prihláseným používateľom. samotné obsahy si používateľ môže prezrieť v špeciálnej prehliadačke, ktorá neumožňuje zobrazené strany obsahu tlačiť ani kopírovať.
V prípade zmeny legislatívy máme možnosť funkcionalitu operatívne rozšíriť na všetkých. Podobne v prípade nutnosti stiahnuť digitalizované prvky z OPAC-u.

obr. 2 Formulár rozšíreného vyhľadávania s podmienkou Slová obsahu

V roku 2011 bolo spracovaných a do systému naimportovaných asi 2 900 obálok a asi 5 300 obsahov kníh. Za rok sme stihli zaplniť pri vyhovujúcej kvalite skenov asi 4 GB diskového priestoru. Priemerný rozsah obsahov spracovávaných dokumentov je rôznorodý – v priemere je asi 3 strany. Kompletné technologické spracovanie dávky 50 dokumentov s obsahom aj obálkami v DP trvá asi 4 hodiny. Okrem skenovania zahŕňa aj postprocesing, rozpoznávanie textu cez OCR, transformáciu do požadovaných formátov, označenie a uloženie do úložiska v požadovanej štruktúre, kontrolu kvality a import do systému KIS DaWinci. Určitý čas je potrebný aj na manipuláciu s dovezením a odvozom kníh, resp. evidenciu.

Obr.  Zobrazenie obálky a obsahu vo výsledkoch vyhľadávania

Záver

 „Obohatenie bibliografických záznamov o digitalizované prvky a ich integráciu do online katalógu v knižnici CVTI SR“ sme vďaka kvalitným analytickým a prípravným prácam, dobrej spolupráci jednotlivých organizačných útvarov, ústretovosti vedenia organizácie i kvalitne odvedenou prácou dodávateľa úprav v systéme KIS DaWinci úspešne zrealizovali a v predpokladanom termíne uviedli do prevádzky.

Ale… dobrý pocit s odvedenej práce a spokojnosť z implementácie nám predsa niečo kazí. Zavedenie nových funkcionalít nepochybne znamená ďalšie skvalitnenie služieb používateľom knižnice. Prínosom nových úprav je predovšetkým skvalitnenie vyhľadávania dokumentov zapojením sofistikovaných metód plnotextového indexovania, keď sa do plnotextového indexu dostávajú aj slová z obsahov kníh. Súčasná legislatíva je však veľkou brzdou pri sprístupňovaní obálok a obsahov kníh v katalógu, ktoré je dostupné len obmedzene, nie pre celú verejnosť. A nemusela by byť. Nevyhovuje síce ani autorom, ani vydavateľom, ani používateľom, ale nikto s ňou zatiaľ nevie pohnúť. Je to na škodu veci a riešenie nie je ani len na obzore.

Námetom pre ďalšie aktivity v tejto oblasti môže byť napr. rozšírenie digitalizácie na celé texty vybraných, najčastejšie požadovaných dokumentov – zatiaľ aspoň pre používateľov v študovniach. Kapacitne aj technologicky to podmienky v CVTI SR dovoľujú. Snažíme sa aj komunikáciou s vydavateľmi a autormi prelomiť legislatívne obmedzenia. Ďalšou témou do budúcna môže byť napríklad spolupráca s inými knižnicami, ktoré by boli naklonené spolupráci.

katalog.cvtisr.sk/opac

obr. 4  Zobrazenie obsahu v špeciálnej prehliadačke

 


Použitá literatúra:

KLIMENTOVÁ, Eliška; NOGE, Juraj. Obohatenie bibliografických záznamov o digitalizované prvky a ich integrácia do online katalógu v knižnici CVTI SR. Projektová štúdia. CVTI SR, 2010. Interný dokument.

 

Zdieľať:
Obsah čísla