Vyhľadávanie: AND – OR – NOT je problém?
Step by Step
“Dunčo, hľadaj!” Týmito slovami nás vyzýva na spoluprácu slovenský internetový vyhľadávač Dunčo (
www.dunco.sk). Keď sa rozhodneme využiť jeho služby, radostne zavrtí chvostom: “Hav!”
(Tlačidlo s uvedeným textom nahrádza obligátnu ikonu “Hľadaj”, ktorá aktivizuje vyhľadávací mechanizmus). Vieme však Dunčovi
zadať takú úlohu, aby sa istým krokom rozbehol v ústrety cieľu, alebo po našej požiadavke zostane v rozpakoch bezradne stáť a
kňučať ako malé, vyplašené šteniatko?
Vyhľadávanie informácií v internete je často považované za elementárnu úlohu, ktorá bežnému používateľovi výpočtovej
techniky nemôže robiť žiaden problém. Je to naozaj tak? Dovoľte odcitovať niekoľko riadkov z rozhovoru s doc. Makulovou,
uverejnenom v elektronickom periodiku Ikaros. Doc. Makulová uvádza nasledujúce údaje o vyhľadávaní na internete: “Google
navštívi denne okolo 150 miliónov používateľov. Problémom je, že až 71 % používateľov nie je spokojných s výsledkami
vyhľadávania a nenájde to, čo potrebuje. Výsledky výskumov ukazujú, že väčšina požiadaviek má v priemere 2,35 termínov,
jednotlivé termíny nevystihujú obsah toho, čo chce používateľ nájsť, používatelia nevedia používať boolovské operátory (až 80
% prieskumov je bez boolovských operátorov), 85 % používateľov si pozrie iba nájdené záznamy na jednej obrazovke, 78 %
požiadaviek sa ďalej nemodifikuje a veľa používateľov nevyhľadáva, ale iba sleduje spojenia.”
Všetci si želáme, aby sa slovenskí knihovníci podieľali na vylepšení tejto nepriaznivej štatistiky. Nielen zadávaním
fundovaných a korektne formulovaných rešeršných požiadaviek do vyhľadávača Google, ale aj všeobecne, častejším a
efektívnejším využívaním internetu a jeho informačných zdrojov. Bez ohľadu na to, či ide o vyhľadávacie nástroje, alebo
internetové bázy dát a katalógy.
Zopakujme si preto, v čom spočíva podstata vyhľadávania. Spracovanie dotazu môžeme rozdeliť do piatich etáp:
1. formulácia rešeršnej požiadavky,
2. vyšpecifikovanie kľúčových slov,
3. tvorba dotazu,
4. vyhľadávanie,
5. vyhodnotenie a spracovanie výsledkov vyhľadávania.
Rozoberme si tieto etapy na príklade vyhľadávania v katalógu CVTI SR.
1. Formulácia rešeršnej požiadavky. Na získanie adekvátneho výsledku spravidla nestačí použiť jediné hľadané slovo.
Napríklad chceme nájsť všetky knihy od autora Dušana Katuščáka alebo Sone Makulovej, ktoré sa netýkajú internetu.
2. Vyšpecifikovanie kľúčových slov. Kľúčovými slovami sú v tomto prípade slová: Katuščák Dušan, Makulová, internet.
U autora Katuščáka sme museli uviesť aj krstné meno, pretože autorov uvedeného priezviska máme v katalógu viac.
3. Tvorba dotazu. V tejto fáze musíme slová, ktoré sme si v predchádzajúcej časti zvolili ako kľúčové, spojiť
pomocou logických operátorov a vytvoriť z nich dotaz. Operátory vzťahu slov sú prevzaté z matematickej (boolovskej) logiky.
Tri základné vzťahy sú konjunkcia, negácia a disjunkcia. Jednotlivé slová dotazu podľa potreby umiestňujeme do zátvoriek.
Zátvorky menia prioritu spracovania jednotlivých slov dotazu (slova v zátvorkách sa vyhodnocujú pri spracovaní dotazu
najskôr). Náš príklad bude sformulovaný takto: (Katuscak AND Dusan OR Makulova) NOT internet$
Katalóg CVTI SR má vlastné špecifikum vo vyhľadávaní autorov. Nie je možné zapísať ich do jedného slovného spojenia
(Katuscak Dusan), pretože v báze dát sú uvádzané v samostatných podpoliach. Spájame ich preto logickým operátorom AND
(Katuscak AND Dusan). Na túto skutočnosť, ako aj na iné špecifiká vyhľadávania upozorňuje používateľa katalógu návod na prácu
uvedený samostatne, ale aj v rámci stránky s vyhľadávacím oknom. Vysvetlime si základné vzťahy boolovskej logiky:
a. Konjunkcia (logický súčin) je prienikom dvoch množín (obr. 1). Predstavme si množinu A ako množinu všetkých
dokumentov o autoroch s menom Katuscak a množinu B ako množinu všetkých dokumentov o autoroch s menom Dusan. Prienikom týchto
množín sú dokumenty, ktoré sa týkajú autora Dušana Katuščáka. Slovne túto operáciu vyjadríme spojkou a, a zároveň, a súčasne
: Katuscak AND Dusan. Ako logický operátor sa používa anglické slovo AND .
Konjunkcia: A AND B (obr. 1)
b. Disjunkcia (logický súčet) je zjednotením dvoch množín (obr. 2). Predstavme si množinu A ako množinu všetkých
dokumentov o autorovi Dušanovi Katuščákovi a množinu B ako množinu všetkých dokumentov o autorke s menom Makulova.
Zjednotením týchto množín sú dokumenty, ktoré sa týkajú buď Dušana Katuščáka, alebo Makulovej. Slovne možno túto operáciu
vyjadriť spojkou alebo: Dusan AND Katuscak OR Makulova. Ako logický operátor sa používa anglické slovo OR.
Disjunkcia: A OR B (obr. 2)
c. Negácia. Predstavme si, že v tomto prípade je množina A množinou všetkých dokumentov od autorov Dušana Katuščáka a
(Sone) Makulovej (body a a b) a množina B je množinou všetkých dokumentov o internete. Požadujeme len dokumenty od uvedených
autorov a nie o internete (množina A), čiže (Dusan AND Katuscak OR Makulova) NOT internet. Ako logický operátor sa používa
anglické slovo NOT (obr. 3).
Negácia: A NOT B (obr. 3)
4. Vyhľadávanie. Sformulovaný dotaz napíšeme do okienka na formuláciu dotazu a stlačíme Hľadaj.
5. Vyhodnotenie a spracovanie výsledkov vyhľadávania. Výsledkom môže byť rôzne množstvo výstupov rôznej relevancie.
Ak sme našli príliš veľké množstvo výsledkov, musíme požiadavku konkretizovať a spresniť.
Vyhľadávanie v internete nie je takou jednoduchou úlohou, ako by sa na prvý pohľad zdalo. Hlavne vtedy, ak ho chceme
zvládnuť na profesionálnej úrovni. Jeho podstatou je množinová matematika, s ktorou sa počas štúdia niektorí ani nemali
možnosť stretnúť, pretože v určitom období sa jej humanitné študijné smery zďaleka vyhýbali. (O to väčšie bolo zdesenie
rodičov, keď bola na niekoľko rokov zaradená do osnov matematiky na základnej škole.)
Záverom uveďme niekoľko faktov týkajúcich sa vyhľadávania v katalógu CVTI SR. Za trištvrte roka bolo v ňom
uskutočnených asi 20 000 vyhľadávaní. Na vzorke 1 200 požiadaviek, formulovaných v čase od polovice decembra 2001 do polovice
februára 2002, sme si overili kvalitu vyhľadávania. Získali sme tieto poznatky: 8 % dotazov obsahovalo diakritiku napriek
upozorneniu, že katalóg je vytvorený bez použitia diakritiky. Neúspešných dotazov (s nulovým počtom vyhľadaných záznamov)
bolo asi 40 %. Z 1 200 testovaných dotazov len 10 % obsahovalo logický operátor AND (zostali sme 10 % pod priemerom Google).
Ostatné požiadavky obsahovali iba jediný termín, operátory OR a NOT v uvedenom období nepoužil nikto z
vyhľadávajúcich.
Z uvedeného vyplýva, že možnosti skvalitnenia internetového vyhľadávania my i naši čitatelia (chvalabohu) máme.
Nezostáva nám preto nič iné, len si zopakovať množinovú matematiku, boolovskú algebru a logiku a aplikovať poznatky z týchto
vedných disciplín do našej práce na internete.