K niektorým problémom vyhľadávania na webových sídlach

Krok za krokom

Cieľom článku je charakterizovať systém vyhľadávania na webových sídlach. Vyhľadávanie patrí k dôležitému pilieru informačnej architektúry a podľa prieskumov aj k najdôležitejším. V štúdii uvedieme niektoré najnovšie výsledky výskumov týkajúce sa správania používateľov pri vyhľadávaní informácií, ako aj kritériá implementácie vyhľadávacieho systému na webové sídlo. V závere je uvedená anatómia vyhľadávacieho systému a zdôraznená nutnosť spolupráce medzi IT špecialistom a informačným architektom pri výbere vhodného vyhľadávacieho nástroja.

Úvod

Používatelia internetu sú pri vyhľadávaní informácií konfrontovaní s viacerými problémami, ktoré by sme mohli zhrnúť takto (Makulová, 2005):

  • používatelia nevedia správne formulovať svoju informačnú požiadavku a hodnotiť nájdené záznamy,
  • informačný prieskum na webe je iný ako v databázových centrách a digitálnych knižniciach,
  • množstvo vyhľadávacích nástrojov,
  • informácie sú roptýlené v hĺbkovom a povrchovom webe.

Ako sa uvádza v štúdii Analýza faktorov vplývajúcich na nájditeľnosť webových sídiel (Makulová, 2006 a), aj keď za najzávažnejší problém pokladáme nízku úroveň informačnej gramotnosti, treba brať do úvahy aj to, že informačný prieskum na webe je iný ako v databázových centrách a digitálnych knižniciach, o čom svedčia aj výsledky štúdie Jansena a Poocha (2000). Vyhľadávanie v databázových centrách využívajú väčšinou informační profesionáli, experti vo vyhľadávaní, čomu zodpovedá aj vyšší počet požiadaviek s boolovskými operátormi, väčší počet termínov v požiadavke a vyšší priemerný počet požiadaviek na jednu reláciu. Požiadavky s boolovskými operátormi sa najmenej využívajú pri vyhľadávaní v online katalógoch knižníc a najviac v databázových centrách.

Výsledky štúdií správania používateľov treba zohľadniť pri návrhu interfejsu na vyhľadávanie tak, aby sa zohľadnilo správanie všetkých skupín používateľov (Papík, 2001).

Na základe mnohých výskumov týkajúcich sa vyhľadávania informácií bolo zistené, že:

  • väčšina požiadaviek má v priemere 2,8 termínov, v roku 1996 to bolo iba 1,5 termínov, vo všeobecnosti je však počet termínov veľmi malý,
  • jednotlivé termíny nevystihujú obsah toho, čo chce používateľ nájsť,
  • používatelia nevedia používať boolovské operátory (80 % prieskumov je bez boolovských operátorov),
  • v roku 2001 si iba tretina používateľov pozrela záznamy na ďalšej obrazovke (Spink, Jansen, Wolfram, Saracevic, 2002),
  • používatelia neformulujú svoju požiadavku formou otázky, aj keď to vyhľadávací nástroj umožňuje (v prípade Ask Jeeves je to iba 50 % požiadaviek),
  • 78 % požiadaviek sa ďalej nemodifikuje, nevyužíva sa možnosť spätnej väzby,
  • 22 % používateľov hľadá určitú stránku,
  • 24 % používateľov si chce z internetu niečo stiahnuť,
  • 10 % používateľov na internete nakupuje,
  • veľa používateľov nevyhľadáva, ale iba sleduje spojenia (Makulová, 2006 a, s. 110).

Podľa posledných výskumov uskutočnených v januári 2006 spoločnosťou iProspect v spolupráci s Jupiter Research venovaných správaniu používateľov pri používaní prieskumových strojov sa ukázali niektoré nové skutočnosti. Výsledky boli publikované v apríli 2006 v štúdii iProspect Search Engine User Behaviour Study a naznačujú trendy v správaní používateľov pri vyhľadávaní informácií na základe porovnávania výsledkov výskumov za posledné štyri roky. Z prieskumu vyšlo najavo, že väčšina používateľov pri vyhľadávaní očakáva nájdenie vhodnej informácie hneď na prvej stránke ponúkaných výsledkov. Až 62 % používateľov vyhľadávacích nástrojov klikne na prvú stranu výsledkov vyhľadávania a 90 % používateľov (81 % v porovnaní s rokom 2002) si pozrie záznamy na prvých troch stranách obrazovky. Z toho vyplýva aj nutnosť pre firmy, ktoré ponúkajú prostredníctvom internetu predaj produktov alebo služieb, aby sa pre požadované kľúčové slová umiestnili v rámci prvých troch strán výsledkov vo vyhľadávaní, najlepšie na prvej strane. Byť na poprednom mieste vo vyhľadávaní však neznamená len byť nájdený. Z hľadiska psychologického efektu je dôležité, že takmer 36 % respondentov verí, že stránky na prvých miestach vyhľadávania patria spoločnostiam, ktoré sú lídrami v danom odbore, 39 % zastáva negatívne stanovisko a 25 % nepovažuje prvé miesta automaticky za záruku lídra trhu. To je tiež jeden z dôvodov, prečo sa hlavne v poslednom čase stále viac hovorí o nutnosti SEO optimalizácie webových sídiel (bližšie informácie o SEO optimalizácii pozri článok 2006 b).

Problémom je, že ešte stále vieme iba veľmi málo o informačných potrebách používateľov pri vyhľadávaní informácií v internete. Je zrejmé, že informačné potreby používateľov sú iné, na aké sme boli zvyknutí pri vyhľadávaní v komerčných databázových centrách, kde väčšinou išlo o získanie informácií k predmetu výskumu, prípadne v digitálnych knižniciach. Ako prvý na túto skutočnosť poukazuje Andrei Broder (2002). Na základe výskumu transakčných logov v AltaViste zistil, že informačná potreba nemusí byť vždy iba informačná, ale môže byť aj navigačná (hľadáme URL niektorej stránky), prípadne transakčná (z internetu chceme niečo stiahnuť, kúpiť a pod.). Informačné typy požiadaviek sa najviac približujú ku klasickým typom požiadaviek, na aké sme boli zvyknutí v databázových centrách.

Z výsledkov vyplýva, že vyhľadávaniu by sa mala venovať väčšia pozornosť. Musíme však rozlišovať medzi vyhľadávaním na vlastnom sídle a globálnymi vyhľadávacími nástrojmi, ktoré umožňujú vyhľadávať v celom webovom priestore.

Princíp vyhľadávania informácií v internete

Informačný prieskum môžeme definovať ako komplex procesov smerujúcich k vyhľadaniu informácií zodpovedajúcich informačnej požiadavke z informačných zdrojov s výstupom ako špeciálnym spôsobom interpretovanými, štruktúrovanými a prezentovanými informáciami (Steinerová, 1996).

Každému informačnému prieskumu v internete by mala predchádzať dôkladná príprava a zvolenie správnej rešeršnej stratégii a taktiky. Správne naformulovaná rešeršná požiadavka je ďalej postúpená vyhľadávaciemu programu, ktorý určí:

  • ktoré záznamy v databáze vyhovujú požiadavke,
  • v akom poradí budú zoradené na výstupe.

Vyhľadávací program určí, ktoré záznamy vyhovujú požiadavke na základe spôsobu, akým ju používateľ formuluje. V prípade, že použije jednoduché vyhľadávanie bez použitia operátorov Boolovej algebry, proximitných operátorov,vyhľadávanie podľa polí a pod., najjednoduchší postup je taký, že všetky slová z rešeršnej požiadavky sú spojené buďoperátorom AND alebo OR a porovnávajú sa s databázou. Je to tzv. implicitné vyhľadávanie, ktoré je definované tvorcami vyhľadávacieho programu. Väčšina prieskumových strojov má implicitné vyhľadávanie nastavené tak, že sa termíny spoja pomocou operátora AND.

Ak používateľ použije rozšírené vyhľadávanie s boolovskými operátormi, filtrami a pod., aplikuje sa sofistikovanejšie vyhľadávanie, na základe ktorého sa každému záznamu priradí určité skóre podľa výsledku relevancie s prieskumovou požiadavkou. Vzhľadom na súperenie medzi prieskumovými strojmi a rýchlemu nárastu internetu sa väčšinou iba ťažko dostaneme k presnému algoritmu, ktorý používajú jednotlivé nástroje. Algoritmus radenia záznamov na výstupe záleží od viacerých faktorov, sú to predovšetkým:

  • analýza frekvencie výskytu vyhľadávacích termínov,
  • váha termínu podľa umiestnenia v rámci dokumentu,
  • počet termínov v požiadavke, ktoré sa zhodujú so záznamami,
  • niektoré vyhľadávacie nástroje preferujú menšie dokumenty pred väčšími,
  • frekvencia aktualizácie webových stránok (čím je frekvencia častejšia a pravidelnejšia, tým sú stránky radené vyššie),
  • hybridné vyhľadávacie nástroje preferujú tie stránky, ktoré sa nachádzajú v ich adresári,
  • analýza počtov spojení na stránky (čím viac spojení na stránky, tým sa stránka pokladá za populárnejšiu a relevantnejšiu),
  • analýza kvality spojení na stránky,
  • obsah metaprvkov,
  • doména, z ktorej pochádzajú záznamy,
  • platené alebo tzv. sponzorované spojenia,
  • prístup využívajúci princíp spätnej väzby a pod.

Kedy potrebuje vaše sídlo vyhľadávanie

Už viackrát sme v našich článkoch zdôrazňovali, že používatelia internetu prichádzajú na webové sídla predovšetkým s cieľom nájsť informáciu. Preto by cieľom informačných architektov malo byť usporiadať informácie do takej štruktúry, aby používateľ našiel vždy to, čo potrebuje. K základným spôsobom získavania informácií na webe patrí prehliadanie webových stránok (browsovanie) a potom samotné vyhľadávanie. Pri návrhu systému vyhľadávania vždy vychádzame z požiadaviek a očakávaní používateľov potenciálneho webového sídla. V prípade redizajnu sa odporúča využiť výsledky analýzy transakčných logov, ktoré poskytujú hodnoverné informácie o správaní sa používateľov pri vyhľadávaní informácií. Podľa Loisa Rosenfielda a Petra Morvilla (2002, s. 132-135) by sme si pred implementáciou systému na vyhľadávanie mali nájsť odpoveď na nasledujúci okruh otázok:

Je na stránke dostatočné množstvo obsahu?

Na stránke je zbytočné implementovať pomerne drahý vyhľadávací systém, ak nie je na nej dosť obsahu (webové sídlo má iba niekoľko stránok), prípadne používatelia webového sídla preferujú prehliadanie. Ide v podstate o malé sídla, kde je jednoduché lokalizovať informácie. Je zrejmé, že napríklad na webovom sídle Univerzity Komenského by používatelia privítali dobre navrhnutý systém vyhľadávania.

Nebude systém vyhľadávania riešiť zle navrhnutý navigačný systém?

Často sa na webové sídlo implementuje systém vyhľadávania, pretože bol zle navrhnutý systém navigácie a používatelia sa na stránke cítia stratení. Systém vyhľadávania by mal byť doplnkom k systému navigácie, používatelia by mali cítiť pridanú hodnotu z obidvoch systémov.

Máte dosť času a know-how, aby ste správne implementovali vyhľadávací nástroj na vaše sídlo?

Inštalácii a správnej konfigurácii vyhľadávacieho nástroja je potrebné venovať dostatočnú pozornosť, inak môžeme byť prekvapení výsledkom vyhľadávania. V prípade, že nemáme dostatočné technické vedomosti a peniaze na konfiguráciu vyhľadávacieho nástroja, je lepšie použiť napríklad index, ktorý sa dá zostrojiť aj manuálne.

Očakávajú používatelia od webového sídla možnosť vyhľadávania?

Pred implementáciou vyhľadávacieho systému musíme vždy vychádzať z požiadaviek používateľov. Ak napríklad prostredníctvom sídla predávame kvety, používatelia pravdepodobne uprednostia možnosť prezerania jednotlivých kytíc, ktoré môžeme prípadne zoskupiť do kategórií. Často sa stáva, že sídla sa časom rozrastú a nástroj vyhľadávania je nevyhnutný.

Rozhodne však sú také webové sídla, ktoré nevyhnutne potrebujú vyhľadávanie. Sú to predovšetkým nasledujúce typy sídiel:

  • Ide predovšetkým o typické predmetové adresáre, kde je k dispozícii príliš veľa informácií na prezeranie. Aj keď v počiatkoch stačil spôsob získavania informácií prechádzaním po hierarchickej klasifikácii, po náraste informácií sa ukázala nutnosť implementácie aj vyhľadávacieho mechanizmu. Dnes si už predmetové adresáre bez nástroja na vyhľadávanie ani nevieme predstaviť. K prvým krokom v súčasnosti patrí najprv využitie vyhľadávacieho mechanizmu. Prehliadanie hierarchických kategórií patrí až k doplnkom procesu vyhľadávania.
     
  • Vyhľadávanie by nevyhnutne nemalo chýbať na veľkých sídlach s rôznorodým obsahom. V tomto prípade je nevyhnutné implementovať vyhľadávací nástroj, ktorý zindexuje celé webové sídlo. Na základe analýzy transakčných logov môžu informační architekti ďalej zlepšovať systém navigácie a organizácie informácií tak, aby používatelia dokázali nájsť požadované informácie.
     
  • Vyhľadávanie by malo byť na sídlach, kde sa často dodáva nový obsah. V tomto prípade by bolo neúčelné vytvárať manuálne obsah sídla a indexy, ale vyhľadávací nástroj môže zindexovať sídlo po každej zmene.
     
  • Používatelia automaticky očakávajú, že na webovom sídle bude vyhľadávanie. Výsledky výskumov ukazujú, že aj keď často nie je potrebné implementovať na webovom sídle vyhľadávanie, používatelia automaticky predpokladajú, že vyhľadávanie sa na stránke vyskytuje a že bude pracovať podľa ich očakávaní.

Ako uvádza Jakob Nielsen vo svojom článku Mental models for search are getting firmer (2005), používatelia vyhľadávacích nástrojov si už vytvorili určité predstavy o tom, ako by mal proces vyhľadávania vyzerať, dokonca už môžeme hovoriť o určitých mentálnych modeloch, podľa ktorých sa používatelia riadia pri vyhľadávaní. Podľa neho používatelia očakávajú, že dizajn vyhľadávania bude obsahovať tri časti:

  1. priestor, kde sa môžu písať slová,
  2. tlačidlo s nápisom search (vyhľadaj), ktoré po stlačení spustí vyhľadávanie,
  3. zoznam relevantných výsledkov usporiadaných podľa relevancie, ktorý je na novej strane – search engine result page (SERP).

Určitý mentálny model zohľadňujú aj tri najčastejšie používané vyhľadávače – Google, Yahoo! a MSN. Ako aj ukazujú mnohé výskumy, používatelia majú v súčasnosti pomerne presnú predstavu, ako sa správať v procese vyhľadávania. Týmto mentálnym modelom by sa preto mal prispôsobovať aj dizajn vyhľadávacích nástrojov, aby sa dosiahla potrebná používateľská prívetivosť a relevantné výsledky pri vyhľadávaní.

Mentálne modely zohľadňujú aj tzv. de-facto štandardy pre web. Podľa Jacoba Nielsena (1999), ak rozmýšľame, ako vytvoriť dizajn určitých prvkov na stránke, sa stačí pozrieť, ako to robí 20 najnavštevovanejších webových sídiel na internete:

  • Ak viac než 80 % veľkých sídiel robí dizajn istým spôsobom, je to de-facto štandard. Tento dizajn by sme mali nasledovať. Našu alternatívu dizajnu môžeme použiť, ak má najmenej o 100 % vyššiu mieru použiteľnosti (usability).
  • O silnej konvencii hovoríme, ak 50 až 79 % veľkých sídiel robí veci istým spôsobom. Ak nemáme pocit, že náš navrhnutý dizajn je aspoň o 50 % používateľsky prívetivejší, mali by sme sa mu prispôsobiť.
  • Ak menej ako 50 % sídiel vytvára dizajn rovnakým spôsobom, nehovoríme už o konvencii a môžeme použiť vlastný návrh.

Treba si uvedomiť, že žiadne sídlo nie je izolované, ale používatelia naň prichádzajú s určitými očakávaniami, ktoré vychádzajú z predchádzajúcich skúseností. Zaujímavý výskum uskutočnila Heidi Adkisson, výsledky ktorého publikovala v štúdii Examinig the Role of De Facto Standards on the Web a prakticky demonštrovala na webovom sídle http://www.webdesignpractices.com/. Až 93 % zo 75 vedúcich e-commerce sídiel umožňovalo funkciu globálneho vyhľadávania ako textové pole a tlačidlo search a iba 7 % ako spojenie vedúce na vyhľadávanie. Väčšina používateľov očakáva vyhľadávanie v hornom ľavom rohu. Iba 33 % sídiel umožňovalo rozšírené vyhľadávanie (advanced search).

Základná anatómia vyhľadávacieho systému

V praxi rozoznávame dva varianty vyhľadávacích systémov (Rosenfeld, Morville 2002).

  1. Jednoduchší model pozostáva z toho, že používateľ zadá do systému požiadavku, ktorá sa porovná s indexom reprezentujúcim obsah celého sídla. Na základe zhody kľúčových slov s indexom sú používateľovi prezentované nájdené záznamy, ktoré sú usporiadané podľa miery relevancie s požiadavkou.
     
  2. Druhý model vidíme na obrázku 1 (Morville 2001). Spočíva v tom, že sú vytvorené záznamy s metadátami, ktoré reprezentujú každý dokument. Záznamy aj dokumenty sú uložené v databáze, ako napr. CMS. Záznamy obsahujú štrukturálne, deskriptívne, administratívne a ďalšie metadáta, ktoré poskytujú detailné informácie o dokumente. Informačné požiadavky sa porovnávajú s jednotlivými indexmi a používateľ postupne reformuluje svoju požiadavku, až pokiaľ nie je spokojný s nájdenými záznamami.

makul.jpg (52067 bytes)
Obr. 1 Anatómia vyhľadávacieho systému (podľa Morville 2001)

Je pomerne častou chybou, že výber softvérového nástroja na vyhľadávanie sa často zverí do rúk IT špecialistom a nespolupracuje sa s informačným architektom, ktorý by mal vedieť najlepšie, aké sú informačné potreby používateľov webového sídla a akým spôsobom treba informácie zorganizovať, klasifikovať a popísať, aby boli používatelia spokojní. V internete, kde je k dispozícii niekoľko miliárd dokumentov, čoraz viac platí, že informáciu, ktorú nikto nenájde, ani nikto neprečíta. Preto sa pri výbere ukazuje byť ideálna spolupráca IT špecialistu a informačného architekta. O výbere vhodného vyhľadávacieho nástroja, určení vyhľadávacích zón a odporúčaní informačných architektov pri návrhu systému vyhľadávania budeme hovoriť v ďalšom čísle.

Záver

Návrh vyhľadávacieho systému je jednou z najťažších oblastí vývoja sídla, pretože sa podobne ako systém navigácie vždy vyznačuje veľkou dávkou subjektivity. Pri zle navrhnutom systéme vyhľadávania riskujeme stratu dôležitých informácií. Preto by sme mali systém vyhľadávania starostlivo plánovať, vychádzať z prieskumu používateľov a po jeho vytvorení aj neustále testovať. Vo všeobecnosti by funkčné vyhľadávanie malo byť ľahko naučiteľné, poskytovať spätnú väzbu a napomáhať splnenie cieľov a zámerov webového sídla.


Literatúra:

ADKISSON, Heidi. 2003. Examinig the Role of De Facto Standards on the Web. Boxes and Arroes [online]. 10. 13. 2003 [cit. 2006-10-29].
Dostupné na internete:<http://www.boxesandarrows.com/view/examining_the_role_of_de_facto_standards_on_the_web>.

ADKISSON, Heidi. Webdesignpractices [online]. 2005 [cit. 2006-10-29].
Dostupné na internete: <www.webdesignpractices.com>.

BRODER, Andrei. 2002. A taxonomy of Web Search [online]. ACM Sigir Forum, 2002, vol. 36, no. 2, 2002 [cit. 2006-10-29].
Dostupné na internete: <http://doi.acm.org/10.1145/792550.792552>.

iProspect Search Engine User Behavior Study. April 2006 [cit. 2006-10-29].
Dostupné na internete: <http://www.iprospect.com/premiumPDFs/WhitePaper_2006_SearchEngineUserBehavior.pdf>

JANSEN, B. J. – POOCH, U. 2000. Web user studies: A review and framework for future work. In Journal of the American Society for Information Science and Technology. 2000, vol. 52, no. 3, p. 235-246.

McDANIEL, Scott. 2003. What’s Your Idea of a Mental Model? Boxes and arrows [online]. 2. 10. 2003 [cit. 2006-10-29].
Dostupné na internete: <http://www.boxesandarrows.com/view/whats_your_idea_of_a_mental_model_>  

NIELSEN, Jacob. 2005. Mental models for search are getting firmer. Jakob Nielsen’s Alertbox [online]. May 9, 2005 [cit. 2006-10-29].
Dostupné na internete <http://www.useit.com/alertbox/20050509.html>.

NIELSEN, Jacob. 1999. When Bad Design Elements Become the Standard. Jakob Nielsen’s Alertbox [online]. Nov. 14, 1999 [cit. 2006-10-13].
Dostupné na internete: <http://www.useit.com/alertbox/991114.html>.

MAKULOVÁ, Soňa. 2002. Vyhľadávanie informácií v internete. Problémy, východiská, postupy. Bratislava : EL&T, 2002. 376 s. ISBN 80-88812-16-X.

MAKULOVÁ, Soňa. 2005. Návrh riešenia problémov pri vyhľadávaní informácií v internete alebo od kvantity ku kvalite. In Knihovna. 2005. Roč. 16, č. 1, s. 23-43.

MAKULOVÁ, Soňa. 2006 a. Analýza faktorov vplývajúcich na nájditeľnosť webových sídiel. In Information Use in Information Society. International Conference. Bratislava, Slovakia, October 10-11, 2006. Bratislava : Centrum VTI SR, 2006, s. 109-118.

MAKULOVÁ, Soňa. 2006 b. Prečo musíme optimalizovať webové sídla pre vyhľadávače, alebo čo je SEO. In Newsletter. 2. február 2006 [online], [cit. 2006-10-29].
Dostupné na internete <http://www.elet.sk/?newsletter&sprava=preco-musime-optimalizovat-webove-sidla-pre-vyhladavace-alebo-co-je-seo>

McGOVERN, Gerry; Norton, Rob. 2002. Content Critical. London : Pearson Education Limited, 2002. 241 s.

MORVILLE, Peter. 2001. In Defense of Search. In Semantic Studios [online]. December 7, 2001 [cit. 2006-10-29].
Dostupné na internete <http://semanticstudios.com/publications/semantics/000004.php>.

PAPÍK, Richard. 2001. Vyhledávání informací II. Uživatelské rozhraní a vlivy oboru ”human-computer interaction”. In Národní knihovna. 2001, roč. 12, č. 2, s. 81-90. [cit. 2006-10-13].
Dostupné na internete: <http://full.nkp.cz/nkkr/NKKR0102/0102081.html>.

ROSENFELD, L., MORVILLE, P. 2002. Information Architecture for the World Wide Web. 2. vyd. Sebastopol : O´Reilly&Associates, 2002, 461 s. ISBN 0-596-00035-9.

SPINK, A. – JANSEN, B. J. – WOLFRAM, D. – SARACEVIC, T. 2002. From e-sex to e-commerce: Web search changes. In IEEE Computer. Vol. 35, no. 3, p. 133-135.

STEINEROVÁ, Jela. 1996. Teória informačného prieskumu. Bratislava : SlTK – CVTI SR, 1996, 262 s.


Príspevok bol spracovaný v rámci vedeckého grantového projektu VEGA 1/2481/05 Využívanie informácií pri informačnom správaní vo vzdelávaní a vede.

Zdieľať:
Obsah čísla