wikipedia.infostar.cz

Získávání informací

Získávání informací je věda hledání pro dokumenty, pro informace uvnitř dokumentů a pro metadata o dokumentech, stejně jako to hledat relační databáze a internetovou síť. Tam je překrývání v použití požadavků získávání dat, vyhledávání dokumentů, získávání informací a získávání textu, ale každý také má jeho vlastní literární text, teorii, praxis a technologie. IR je mezivědní, založený na počítačové vědě, matematika, knihovnictví, informatika, architektura informací, kognitivní psychologie, lingvistika, statistiky a fyzika.

Automatizovaný systémy získávání informací jsou používány se snížit co bylo nazýváno “přetížením informací”. Mnoho univerzity a veřejné knihovny používají IR systémy poskytovat přístup ke knihám, žurnály a ostatní dokumenty. Motory hledání na internetu jsou nejvíce viditelné IR aplikace.

Nepřehlédněte: Tato stránka obsahuje strojový překlad textu z anglické encyklopedie Wikipedia. Pokud budou některé pasáže špatně srozumitelné, zkuste se podívat i na text v originále, který najdete pod odkazem Information retrieval. Překlad byl vytvořen pomocí překladače Eurotran.

vy znáte to, ačkoli já jsem držel deník [na fonografu] pro minulost měsíců, to nikdy jednou udeřilo mě jak já jsem šel najít nějakou zvláštní část toho v případě já jsem chtěl vyhledat to? | Dr Seward | Bram topič je Dracula, 
 1897 }}

Nápad používání počítače hledat významné kusy informací byl propagován v článku Jak my můžeme myslet Vannevar keř v 1945. Nejprve realizace systémů získávání informací byly představeny v padesátých létech a šedesátých létech. 1990 několik různých technik bylo ukázané fungovat dobře na malých textových souborech (několik dokumentů tisíce).

V roce 1992 americké ministerstvo obrany, podél s National institut standardů a technologie (NIST), cosponsored Text konference získávání (TREC) jako součást TIPSTER textového programu. Cíl tohoto měl zvažovat komunitu získávání informací tím, že dodává infrastrukturu to bylo potřebováno pro ohodnocení textových získávacích metodologií na velmi velké textové sbírce. Toto catalyzed výzkum metod, které váží k obrovským souborům. Zavedení motorů hledání na internetu posílilo potřebu velmi velkých zmenšených získávacích systémů dokonce ještě více.

Použití digitálních metod na uložení a vytáhnutí informace vedlo k jevu digitální zastaralosti, kde digitální zdroj přestane být čitelný protože fyzická média, požadovaný čtenář číst média, hardware nebo software, který běží na to, je už ne dostupný. Informace jsou zpočátku snadnější získat než jestliže to bylo na papíře, ale je pak účinně ztracený.

Časová osa

  • Před 1900s
  • 1900s
  • šedesátá léta: u časných šedesátých lét Gerard Salton začal práci na IR u Harvarda, později se stěhoval do Cornella.
  • sedmdesátá léta
  • osmdesátá léta
  • devadesátá léta

Přehled

Proces získávání informací začne, když uživatel vloží dotaz do systému. Dotazy jsou formální prohlášení potřeb informací, například řetězce hledání ve webu hledají motory. V získávání informací dotaz jedinečně nepozná jediný objekt ve sbírce. Místo toho, několik objektů může odpovídat dotazu, snad s různými mírami důležitosti.

Objekt je entita, která se udržuje nebo uchovává informaci v databázi. Dotazy uživatele jsou přirovnány k objektům uloženým v databázi. Se spoléhat na aplikaci objekty dat mohou být, pro příklad, textové dokumenty, obrazy nebo videa. Často dokumenty sám nejsou se udržoval nebo skladoval přímo v IR systému, ale být raději reprezentovaný v systému náhradami dokumentu.

Nejvíce IR systémy počítají numerické skóre na jak dobře každý objekt v databázi odpovídat dotazu a pozici objekty podle této hodnoty. Špičkové hodnotící objekty jsou pak ukazovány k uživateli. Proces může pak být opakován jestliže uživatel přeje si čistit dotaz.

Míry výkonu

Mnoho různých mír pro hodnocení výkonu systémů získávání informací bylo navrhované. Míry vyžadují sbírku dokumentů a dotaz. Všechny společné dělitele popsaly tady převzít pravdu země ponětí o důležitosti: každý dokument je znán být jeden významný nebo non-významný pro zvláštní dotaz. V praxi dotazy mohou být nemocný-pózoval a tam smět být různé odstíny důležitosti.

Preciznost

Přesnost je zlomek dokumentů získal to být významný pro uživatelskou informační potřebu.

V binární klasifikaci, přesnost je analogická s pozitivní prediktivní hodnotou. Preciznost vezme všechny získané dokumenty do účtu. To může také být ohodnoceno u dané mezní pozice, rozvažování jen nejvyšší výsledky vrátily se systémem. Tato míra je nazývána precizností u n nebo P @ n.

Si všimnout toho význam a použití “preciznosti” na poli Information získávání se liší od definice správnosti a preciznosti uvnitř jiných odvětví vědy a technologie.

Si vzpomínat

Si vzpomínat je zlomek dokumentů, které jsou významné pro dotaz to být úspěšně získán.

V binární klasifikaci, si vzpomínat je volala citlivost. Tak to může být díval se na jako pravděpodobnost že významný dokument je získán dotazem.

To je triviální dosáhnout si vzpomínat 100 % tím, že vrátí všechny dokumenty v odezvě na nějaký dotaz. Proto si vzpomínat sám je ne dost ale jeden potřebuje změřit množství non-závažné doklady také, například tím, že počítá preciznost.

Fall-Out

Podíl non-závažné doklady, které jsou získány, ven celého non-dostupné závažné doklady:

V binární klasifikaci, fall-out je blízko příbuzný specificity1 - \ mbox {přesnost} < / matematika >. To může být díval se na jako pravděpodobnost to non-významný dokument je získán dotazem.

To je triviální dosáhnout fall-out 0 % tím, že vrátí dokumenty nuly v odezvě na nějaký dotaz.

F-míra

Posuzovaný harmonický zlý preciznosti a si vzpomínat, tradiční F-míra nebo balancoval F-skóre je:

Toto je také známé jak F1 míra, protože si vzpomínat a preciznost být rovnoměrně posuzovaný.

Obecný vzorec pro non-negativní skutečný? je:

Dva jiný běžně používaný F míry jsou F2 míra, které váhy vzpomínají si dvakrát jak hodně jako preciznost, a F0.5 míra, který zatíží preciznost dvakrát jak hodně jak si vzpomínat.

F-míra byla odvozena dodávkou Rijsbergen (1979) tak to Fβ “měří efektivitu získávání s ohledem na uživatele, který připevní? časy jako velký význam si vzpomínat jako preciznost”. To je založené na dodávce Rijsbergen je míra účinnosti E = 1? (1 / (? / P + (1??) / R )). Jejich vztah je = 1? E kde ? = 1 / (β2 + 1).

Preciznost průměru preciznosti a si vzpomínat

Preciznost a si vzpomínat být založený na celém seznamu dokumentů vrácených systémem. Preciznost průměru zdůrazní vracet více závažných dokladů dříve. To je průměr precisions vypočítavý poté, co zkrátil seznam po každém závažných dokladů podle pořadí:

kde r je pozice, N číslo získalo, rel () binární funkce na závažnosti dané hodnosti, a P () preciznost u dané mezní pozice.

Modelové typy

Pro získávání informací být účinný, dokumenty jsou typicky transformované do vhodné reprezentace. Tam je několik reprezentací. Obraz vpravo objasní vztah některých obyčejných modelů. Na obrázku, modely jsou roztříděny podle dvou rozměrů: matematický základ a vlastnosti modelu.

První rozměr: matematický základ

Druhý rozměr: vlastnosti modelu

  • Modely bez termínu-interdependencies zacházejí s různými požadavky/slovy jako nezávislá osoba. Tento fakt je obvykle reprezentován ve vektorových prostorových modelech orthogonality předpokladem o vektorech termínu nebo v modelech probabilistic předpokladem nezávislosti pro proměnné termínu.
  • Modely s imanentním termínovým interdependencies dovolí reprezentaci interdependencies mezi požadavky. Nicméně míra interdependency mezi dvěma požadavky je definována modelem sám. To je obvykle přímo nebo nepřímo pocházel (např. rozměrnou redukcí) od

Vůdčí postavy

Ceny na poli

Viz též

Odkazy

  1. ^ b Singhal, Amit (2001).”Moderní získávání informací: Krátký přehled#rquote. Bulletin IEEE počítače společenský technický výbor pro inženýrství dat 24 (4): 35 – 43. http://singhal.info/ieee2001. pdf. 
  2. ^ Doyle, Lauren; Joseph Becker (1975). Získávání informací a zpracování. Melville. pp.   410 stran. ISBN 0471221511. 
  3. ^ Korfhage, Robert R. (1997). Ukládání informací a získávání. Wiley. pp.   368 stran. ISBN 978-0-471-14338-3. http://www.wiley.com/WileyCDA/WileyTitle/productCd-0471143383, descCd-authorInfo.html. 

Externí odkazy