Již tradičně je vyhledávání akcí, která spojuje
uživatele s informacemi, které hledají prostřednictvím významu svých dotazů.
V uplynulých deseti letech profitoval
infromační trh ze stále se snižujících cen datových úložišť. Počítačové
systémy nabízely relativně jednoduché a také levné uchování dat – v databázích,
na souborových serverech či emailových archivech. Tato řešení ve svém základním
účelu uspěla – poskytla prostředí pro vytváření ohromného množství
elektronických informací, které jsou dnes shromažděna v aplikačních
"silech".
Prostředí se však změnilo. Současný vývoj dnes určují návratnost
intelektuálního vlastnictví stejně tak jako nárůst transakcí. Infrastruktura,
která doposud sloužila dobře k ukládání dat, selhává v okamžiku, kdy je
potřeba uložené informace efektivně využívat.
Komerční společnosti a státní instituce čelí novým
požadavkům na shodu s právními pravidly státu či EU. V dnešní ekonomice
založené na znalostech tak vítězí společnosti poskytující svým zaměstnancům i
zákazníkům efektivní přístup k informacím.
Vezměme jako příklad tradiční informační infrastrukturu
podniku: řetěz hodnoty informací. Na spodní úrovni je produkce informací, na
špičce jejich využívání. Jednotlivé úrovně se směrem k užití informací
zužují a vytváří pyramidu v souladu se snižujícími se investicemi do
jednotlivých úrovní. Ve většině institucí právě nákladná databázová
úložiště a legacy architektura rozšiřuje pomyslnou spodní část. Inovativní
řešení může spočívat v otočení nákladové struktury pyramidy.
Podíváme-li se na obrázek, ve spodní části pyramidy jsou
zobrazeny datové zdroje. Fakt, že uložená data různého typu a formátu
v podniku zpravidla vyžadují skupinu db architektů, programátorů, manažerů,
řadu softwarových licencí a pár high-end serverů, není třeba dodávat.
Na datové zdroje navazují aplikační nástroje, které jsou
určeny pro pracovníky, kteří informace organizují, spravují a vyhledávají. Pro ty,
kteří zprostředkovávají přístup pro uživatele. Knihovníci, správci aplikací a
pracovníci podpory uživatelů tráví většinu svého pracovního času přípravou
heslářů, zápisem metadat, správou přístupových práv a vývojem nových
informačních služeb.
Na vrcholku pyramidy jsou pak samotní uživatelé: zaměstnanci,
analytici, vedení společnosti a také zákazníci hledající informace o produktech.
Jaká bývá v takovém případě situace? Pesimisticky
zhodnoceno: neflexibilní, mnohdy pomalý a nákladný přístup k informacím
v relačních databázích a „legacy“ systémech. Finančně náročná a
subjektivní správa metadat. Ne zrovna jednoduchá správa a koordinace
prostředí. Duplicita práce. A stává se stále, že důležité informace nejsou
dostupné… a nebo jsou k dispozici pozdě.
Pokud ale připustíme informační architekturu založenou na
moderní vyhledávací platformě, situace v hodnotovém řetězu se může
dramaticky změnit.
Řešení spočívá v obrácení pomyslné pyramidy. Zlepšením
přístupu k informacím se sníží náklady na jejich vytváření a vlastnictví a
také se pravděpodobně zvýší výkonnost podniku.
Informace v okamžiku potřeby
Tradiční pyramida vyrůstá ze zaměření na transakce. Bývalo
méně dat… a co víc, většinou byla strukturovaná. To se ale vývojem dost změnilo.
Dnešní uživatelé si uvědomují hodnotu včasných a přesných informací a vědí,
jak je použít.
Lepší informační služby mají přímý dopad na jejich práci.
Lepší přístup k informacím je v podnicích strategickým požadavkem
„objevování informací v okamžiku potřeby“ s intuitivním vyhledávacím
rozhraním, relevantními výsledky, odezvou ve zlomcích vteřin a pokročilými
nástroji pro jejich další zpracování řídí mnoho nových obchodních modelů.
Tradiční informační systémy optimalizují produkci informací a
jejích ukládání, ne využívání informací a velmi častou zanechávají
potenciální uživatele bez odpovídající podpory. Pro zachování konkurenceschopnosti
musí podnik svým zákazníkům a zaměstnancům umožnit co nejlépe dosáhnout a
využít informace. Společnosti, které informace využívají, namísto toho, aby je
pouze vytvářeli a ukládali, mají velkou a významnou strategickou výhodu.
Vyhledávací řešení
Trh vyhledávacích technologií již přerostl IT oblast.
Vyhledávání má stěžejní roli v aplikacích pro objevování informací, BI, KM
a v dalších svou výraznou roli postupně získává. Vývoj řídí zejména
uživatelská očekávání. Vyhledávání není pouze o nalézání informací. Je
výchozím bodem pro uživatele.
Základní pohled na vlastnosti pokročilého vyhledávacího
řešení nové generace:
Pohled na souvislosti
- Vyhledávání je orientováno na nalezení fakt a informací oproti
tradičnímu orientovanému na dokumenty. To přináší novou úroveň přesnosti.
Nepracuje se se záznamy, ale objekty.
- Využívá se detekcí témat a entit a vytváří se vazby na
strukturu dokumentu (např. věty a odstavce). To umožňuje průzkum výsledků
prostřednictvím souvisejících entit.
- Záměrem je přinést přesné odpovědi (ne pouze reference na
dokumenty).
Správa vyhledávání
- Zahrnuje řešení založené na srovnávání.
- Obsahuje možnost vytváření vyhledávacích profilů, jejich
nastavení na základě vyhledávací zkušenosti uživatelů, včetně nastavování a
monitorování relevance vyhledávacího procesu a měření a validace dle různých
rolí.
- Záměrem je splnění očekávání uživatelů a také aplikací
pro vyplnění „bussines“ požadavků.
Hodnocení relevance
Cílem hodnocení je vyvážit poměr odezvy a přesnosti. Jak
dobře odpovídá okruh odpovědí záměru položeného dotazu.
- Odezva (recall) – Schopnost vyhledat všechny potenciální
objekty.
- Přesnost (precission) – Schopnost vyhledat pouze
relevantní objekty.
Pro hodnocení se používá u pokročilých vyhledávacích
řešení řada kritérií. Hodnocení probíhá na úrovni dokumentu, vyhledání
samotné pak na úrovni objektu.
Uvedený model hodnocení relevance odpovídá produktu FAST ESP.
- Aktuálnost – Jak nový je dokument ve srovnání s časem
odeslání dotazu?
Příklad: Nejnovější články jsou první na seznamu vyhledaných.
- Souvislosti – Důležitost nálezů závisí na místě, kde
se v dokumentu nachází.
Příklad: Nález v názvu dokumentu může být více relevantní než nález
v jeho textu.
- Autorita – Je dokument vyhodnocený jako autoritní pro
dané téma nebo dotaz?
Příklad: Webové odkazy a ostatní odkazy na dokument, citace.
- Statistické údaje – Jak odpovídá obsah dokumentu dotazu?
Příklad: Přibližnost (vzdálenost mezi nalezenými výrazy); Analýza četnosti
výrazu.
- Kvalita – Jaká je kvalita dokumentu?
Příklad: Určené typy dokumentů (tiskové zprávy), definovaná pravidla,
hodnocení dokumentu uživateli.
- Vzdálenost – Vzdálenost od místa, kde je uživatel?
Příklad: Geografická vzdálenost.
Získávání obsahu a jeho zpracování
- Vyhledávací aplikace jsou integrovány s řadou dokumentových
úložišť, CMS a DMS řešeními a komplexními informačními systémy. To umožňuje
zajištění optimalizovaného a pružného přístupu k obsahu a jeho nezbytné
zpracování pro vyhledávání.
- Výsledky vyhledávání jsou jen tak dobré a relevantní jak dobrý
a relevantní je pro vyhledávání dostupný obsah.
Zpracování obsahu je klíčovým prvkem pro zvýšení kvality
vyhledávací služby. Obsah externího datového zdroje je zpracován a podán
vyhledávacímu systému. Před jeho uložením musí být optimalizován pro
vyhledávání. Probíhá analýza dokumentů, transformace údajů a řada dalších
kroků. „Vyčištěný“ a normalizovaný obsah pomáhá dosažení nejlepší
úrovně relevance během vyhledávání.
Extrakce entit z obsahu zahrnuje definovatelné objekty:
jména osob, jména institucí, emailové adresy, místa, datumy a další.
Příklad: Neznám jméno osoby, kterou hledám, ale vím, že
souvisí s tématem, na které se ptám.
Jazyková relevance
Vyhledávací řešení definují jazykovou relevanci jako využití
informací se strukturou gramatiky a varia-cemi daného jazyka.
S porozuměním jazykové relevanci je možné vyhledávat
informace, které jsou mimo dosah tradičního hledání pomocí klíčových slov.
Využívá se lematizace, slovníků a oborových taxonomií a dalších podpůrných
nástrojů.
Lingvistické nástroje pro zpracování obsahu a dotazů výrazně
ovlivňují relevanci: odezvu a přesnost vyhledávání.
Kvalita služby
Spolehlivé řešení zajišťuje jak zpracování vstupních dat,
tak obsluhu uživatelů. Při zachování výkonu a rychlosti. Lineární škálovatelnost
je nezbytná ve třech dimenzích: objemu dat, počtu dotazů za vteřinu (QPS) a
aktuálnosti dat.
Integrovatelnost
Možnost připojení existujících služeb, datových zdrojů a
aplikačních systémů prostřednictvím standardů (SOA, Web services, Java).
Podpora „rich media“ formátů pro vyhledávání, jakými jsou
audio a video.
Bezpečnost
Zabezpečení je u vyhledávacího řešení na třech úrovních: u
zpracovávaného obsahu, ve vyhledávací aplikaci a v serverovém prostředí.
Záměrem je jednoduchý přístup k informacím, které jsou v
zabezpečeném prostředí a jsou doručeny zabezpečeným způsobem.
Řešení podnikového vyhledávání (ES) se poměrně rychle
stává strategickou komponentou informač-
ní architektury pro podniky a instituce. Za posledních pět let se výrazně zvýšila
kvalita veřejně dostupných vyhledávačů a ta výrazně posunula očekávání
kvality a efektivity interních vyhledávacích služeb od uživatelů.
Poskytovatelé systému spolu s interními IT odděleními se musí
pokusit očekávání plnit.
„Je to jako příprava večeře pro návštěvu – buď bude
ze surovin, které máte k dispozici, nebo se jich zeptáte, co mají rádi...“
Pro článek byly použity zdroje společnosti FAST Search and
Transfer, kterou společnost INCAD zastupuje.
|