Efektívny prieskum webu v Centre VTI SR

Zo Slovenska



Náplňou práce oddelenia informačných služieb a referenčných systémov CVTI SR (ODIS) je spracovávanie informačných
prieskumov z báz dát, jednak z vlastných fondov, ako i z fondov iných informačných inštitúcií. Popri vyhľadávaní odborných
informácií v klasických komerčných databázových centrách, ako sú
Dialog, STN International či informačnej službe
OCLC/FirstSearch, vzniká s rozvojom internetu stále naliehavejšia potreba intenzívneho využívania verejne dostupných
informačných zdrojov nachádzajúcich sa v tomto prostredí, špeciálne v systéme World Wide Web (WWW).

WWW bol pôvodne vytvorený preto, aby poskytol vhodný nástroj na výmenu informácií pre skupinu vedcov. Behom krátkej
doby však web prerástol pôvodný zámer. Dnes priestor tohto systému zapĺňajú miliardy stránok s informáciami najrôznejšieho
druhu, ktoré využívajú používatelia po celom svete na prácu, štúdium, zábavu, obchod a celý rad ďalších aktivít. Pokusy nájsť
vhodné služby alebo informácie iba prostredníctvom prechádzania z jedného dokumentu na druhý pomocou hypertextových odkazov
vedú väčšinou k tomu, že sa v obrovskom množstve informácií stratí používateľ ako v bludisku. Keďže obsah tohto informačného
priestoru nie je evidovaný v žiadnom úplnom katalógu alebo registri s použitím štandardného jazyka (deskriptory podľa
tezaura, predmetové heslá a pod), tak ako to poznáme z knižničných katalógov alebo bibliografických báz dát, je informačné
bohatstvo internetu dostupné iba tomu, kto pozná účinné nástroje vyhľadávania a navigovania.

S rozvojom systému WWW je spojený i rozvoj nástrojov na uľahčenie orientácie v tomto prostredí. Väčšina používateľov
internetu (hlavne knihovnícko-informačnej komunity) má určité skúsenosti s tým, ako hľadať informácie v klasických
informačných zdrojoch – katalógoch knižníc, bázach dát či encyklopédiách. Tieto zdroje sa vyznačujú určitou štandardnou
úrovňou kvality, ktorá prácu s informáciami uľahčuje. Sieť internet poskytuje prístup k obdobným zdrojom, ale k ich hľadaniu
a využívaniu nie je možné pristupovať rovnako.

Vyhľadávacie nástroje umožňujúce orientáciu v prostredí WWW pribúdajú a zanikajú, menia sa ako ostatné internetové
zdroje. Je preto do určitej miery obtiažne ich správne a efektívne využívať. Každý z nástrojov slúži trochu inému účelu a
líšia sa od seba tiež ponukou prostriedkov, ktorými je možné prehľadávanie internetu vykonávať. Pri spracovávaní informačných
prieskumov v ODIS-e CVTI SR sme ako informační špecialisti vyzývaní k tomu, aby sme hľadali čo najefektívnejšie spôsoby
vyhľadávania v internete, aby sme v tomto prostredí neblúdili a “nesurfovali”, ale v čo najkratšom čase našli vysoko kvalitné
odborné informácie, ktoré sú mnohokrát stratené v množstve nekvalitných informačných zdrojov.

Vyhľadávacie nástroje, ktoré využívame, môžeme v princípe rozdeliť do naskledujúcich skupín:

  1. predmetovo orientované nástroje – predmetové adresáre, virtuálne knižnice,
  2. prieskumové stroje,
  3. metainformačné systémy,
  4. špecializované nástroje,
  5. vyhľadávacie služby na báze inteligentných agentov.
  1. Predmetovo orientované nástroje využívame na prehľadávanie WWW prostredníctvom hierarchicky usporiadaného systému.
    Tento systém je vytváraný dokumentmi zoradenými podľa tematiky na základe manuálneho zberu dát pri zohľadnení určitých
    kritérií hodnotenia ich kvality. Tieto zdroje je vhodné používať vtedy, ak predmet, o ktorý sa zaujímame, vieme zaradiť do
    príslušnej kategórie systému a nevyžadujeme rozsiahly prieskum s abstraktmi dokumentov. Najúplnejším adresárom webu, ktorý
    k 1. 5. 2001 sprístupňoval 2 610 000 webovských sídiel, je
    Open Directory Project na adrese
    http://dmoz.org. Dokumenty sú členené do 366 048 kategórií, ktoré sú
    doplňované 36 466 dobrovoľnými odborníkmi. Dobré skúsenosti máme i s najstarším adresárom
    Yahoo (
    www.yahoo.com ), ktorý sa z klasického predmetového adresára mení na
    portál, ponúkajúci okrem vyhľadávacieho nástroja i doplnkové služby. K odborným informáciách technického charakteru nám
    slúžia i tematicky orientované adresáre pre jednotlivé oblasti vedy a techniky (napríklad pre chémiu –
    www.chemdex.com). Z virtuálnych knižníc najčastejšie využívame
    The World Wide Web Virtual Library (
    www.vlib.org ),
    Britannicu (
    www.britannica.com ) alebo tematicky orientované knižnice,
    napríklad
    Edinburgh Engineering Virtual Library (
    www.eevl.ac.uk ).

    Na vzdelávanie, výskum a profesionálny rozvoj je zameraná internetová služba
    Resource Discovery Network 
    www.rdn.ac.uk ), ktorá začala pracovať v januári 1999 a kde sú vybrané
    zdroje popísané odborníkmi z univerzít vo Veľkej Británii a v spolupracujúcich organizáciách. Ide o katalóg, ktorý
    obsahuje okolo 20 000 opisov vysokokvalitných zdrojov a neustále sa rozširuje a vyvíja o nové predmetové skupiny. V
    súčasnosti je táto služba vytváraná piatimi záujmovými centrami, ktoré sú tvorené jednotlivými organizáciami alebo
    konzorciami organizácií (knižnice, akademické, výskumné a profesijne zamerané organizácie). Tieto centrá pracujú podľa
    svojich vlastných pravidiel a poskytujú vstupnú bránu k internetovým zdrojom v svojich predmetových oblastiach, ako i
    ďalšie doplnkové elektronické služby. Pokrývajú inžinierske odbory, humanitné vedy, sociálne vedy, obchod, právo,
    zdravotníctvo i vedy o živej prírode.

  2. Na rozdiel od predmetových adresárov a knižníc, prieskumové stroje sú založené na automatizovanom zbere dát, ktoré sú
    sústreďované do databázy, a ich základnou funkciou je možnosť hľadania prostredníctvom kľúčových slov. Takýchto nástrojov
    je v súčasnosti niekoľko tisíc a využívame ich vtedy, keď chceme nájsť niečo špecifické a rýchlo, keď chceme vyhľadať toľko
    informácií, koľko je možné, a keď sme schopní posúdiť kvalitu výsledku. Najlepšie skúsenosti máme so strojmi GOOGLE (
    ww.google.com ), ktorý je vybavený relevančným rankingom poukazujúcim
    na určité kvalitatívne hľadisko zdroja, FAST (
    www.bos2.alltheweb.com ), AltaVista (
    www.altavista.com ), WebTop (
    www.webtop.com ) a Northern Light (
    www.northernlight.com ).

  3. Z metainformačných systémov, ktoré vznikli preto, aby bolo možné jedným príkazom prehľadať čo najväčší priestor
    internetu, využívame hlavne nástroj Profusion. Od januára 2001 je sprístupnená jeho beta verzia na adrese
    http://beta.profusion.com. Tento vyhľadávací nástroj, podobne ako
    iné tohto druhu, nemá vlastnú bázu dát, ale využíva databázy iných systémov. Zadaná požiadavka je odovzdaná na súbežné
    spracovanie niekoľkými vyhľadávacími službami, ktoré máme možnosť si voliť. Takáto služba na jednej strane urýchľuje
    vyhľadávanie, ale má zmysel len pri hľadaní všeobecnejších tém, pretože podrobne zadanú požiadavku môžu rôzne nástroje
    interpretovať rôzne.

  4. Efektívnym spôsobom získavania informácií z prostredia WWW je využívanie vyhľadávacích nástrojov špecializovaných na
    určitý informačný priestor. Ide napríklad o hľadanie osôb (
    http://peoplesearch.net ,
    www.whowhere.lycos.com ), adries elektronickej pošty (
    www.emailfinder.com ), diskusných skupín (
    http://groups.google.com ), firiem ( Europages –
    www.europages.com,
    www.superpages.com atď.) alebo o tematicky orientované
    špecializované služby (ChemGuide –
    www.fiz-chemie.de/en/datenbanken/chemguide,
      Energysearch –
    www.energysearch.com, iCivilEngineer –
    www.icivilengineer.com atď.) Najnovším nástrojom na
    vyhľadávanie vedeckých informácií je od 1. apríla 2001
    SCIRUS (
    www.scirus.com ), ktorý je produktom firmy Elsevier Science a mapuje
    vyše 60 miliónov vedecky orientovaných stránok, pričom je schopný prečítať i súbory typu PDF a Postscript.

    Okrem verejne prístupných a indexovateľných webových dokumentov umožňuje sieť internet i prístup k obrovskému
    množstvu ďalších informácií, pre ktoré je v literatúre zaužívaný termín “neviditeľný web” alebo “hlboký web”. Ide o
    informácie, ktoré sú uložené v bázach dát a odhaduje sa, že počet dokumentov, ktoré nemôžu byť vyhľadané prostredníctvom
    tradičných vyhľadávačov, je až päťstonásobne väčší. Počet báz dát skrytých v “hlbokom webe” dosahuje počet 200 000 a
    odhaduje sa, že kvalita informačných zdrojov v tomto priestore je až 1000-krát vyššia ako u “viditeľného” webu. Prístup k
    týmto informáciám realizujeme na oddelení ODIS prostredníctvom služieb
    Complete Planet  (
    www.completeplanet.com ) a
    InvisibleWeb (
    www.invisibleweb.com ).

  5. Najefektívnejšími vyhľadávacími službami, ktoré využívame na našom pracovisku, sú služby na báze inteligentných
    agentov. Ide o samostatné programy, ktoré sa dajú nainštalovať na lokálny počítač, umožňujúce rýchly prístup k
    vysokokvalitným, relevantným informáciám. V súčasnosti pri spracovávaní informačných prieskumov používame dva takéto
    programy. Zakúpili sme program COPERNIC Pro 2001, ktorý slúži pre potreby profesionálnych rešeršérov, ponúkajúci podrobné
    členenie do kategórií, prehľadný interfejs, automatickú aktualizáciu a spracovanie požiadaviek, odstraňujúci mŕtve linky a
    zasielanie výsledkov e-mailom. Voľne prístupná základná verzia tohto programu sa nachádza na adrese
    www.copernic.com. Vo fáze jednania je i zakúpenie produktu BullsEye
    Pro firmy Intelliseek, Inc., ktorá je vedúcim providerom infraštruktúry pre inteligentné portály. I táto firma ponúka
    bezplatnú verziu na svojej domácej stránke.

Pri mohutnom náraste webových serverov sa ukazuje, že jedine kvalitné vyhľadávacie nástroje a ich dobrá znalosť môžu
uľahčiť orientáciu v obrovskom množstve sprístupňovaných informácií rôznorodého obsahu a kvality. Na zoznámenie sa s
jednotlivými vyhľadávačmi môžeme odporučiť navštíviť webovú stránku Search Engine Watch (
http://searchenginewatch.com/links ), ktorá tvorí vstupnú
bránu do sveta vyhľadávacích nástrojov. Záleží len na každom informačnom špecialistovi, ktorý nástroj si vyberie, aký bude
zodpovedať jeho profesijnej orientácii a spĺňať nároky na vyhľadávacie kritériá. Skúsenosti ukazujú, že kvalitný informačný
prieskum nie je možné spracovať s využitím iba jedného nástroja. Nakoľko každý mapuje len časť WWW priestoru, je vhodné
využiť aspoň dva-tri, porovnať výsledky, vyhodnotiť kvalitu nájdených dokumentov a až potom vyhotoviť záverečnú správu. I keď
kvalita voľne prístupných informácií nedosahuje úroveň tých, ktoré sú obsiahnuté v komerčne prístupných bázach dát a nemôže
ich nahrádzať, hlavne čo sa týka vedecko-technických informácií, predsa len sa oplatí venovať čas i námahu hľadaniu tých,
ktoré sú stratené v bludisku internetu a zviditeľňovať ich pre čo najväčší počet záujemcov túžiacich po ďalšom odbornom
raste.

Zdieľať: