Získávání informací
Získávání informací je věda hledání pro dokumenty, pro informace uvnitř dokumentů a pro metadata o dokumentech, stejně jako to hledat relační databáze a internetovou síť. Tam je překrývání v použití požadavků získávání dat, vyhledávání dokumentů, získávání informací a získávání textu, ale každý také má jeho vlastní literární text, teorii, praxis a technologie. IR je mezivědní, založený na počítačové vědě, matematika, knihovnictví, informatika, architektura informací, kognitivní psychologie, lingvistika, statistiky a fyzika.
Automatizovaný systémy získávání informací jsou používány se snížit co bylo nazýváno “přetížením informací”. Mnoho univerzity a veřejné knihovny používají IR systémy poskytovat přístup ke knihám, žurnály a ostatní dokumenty. Motory hledání na internetu jsou nejvíce viditelné IR aplikace.
Nepřehlédněte: Tato stránka obsahuje strojový překlad textu z anglické encyklopedie Wikipedia. Pokud budou některé pasáže špatně srozumitelné, zkuste se podívat i na text v originále, který najdete pod odkazem Information retrieval. Překlad byl vytvořen pomocí překladače Eurotran.
vy znáte to, ačkoli já jsem držel deník [na fonografu] pro minulost měsíců, to nikdy jednou udeřilo mě jak já jsem šel najít nějakou zvláštní část toho v případě já jsem chtěl vyhledat to? | Dr Seward | Bram topič je Dracula, 1897 }}
Nápad používání počítače hledat významné kusy informací byl propagován v článku Jak my můžeme myslet Vannevar keř v 1945. Nejprve realizace systémů získávání informací byly představeny v padesátých létech a šedesátých létech. 1990 několik různých technik bylo ukázané fungovat dobře na malých textových souborech (několik dokumentů tisíce).
V roce 1992 americké ministerstvo obrany, podél s National institut standardů a technologie (NIST), cosponsored Text konference získávání (TREC) jako součást TIPSTER textového programu. Cíl tohoto měl zvažovat komunitu získávání informací tím, že dodává infrastrukturu to bylo potřebováno pro ohodnocení textových získávacích metodologií na velmi velké textové sbírce. Toto catalyzed výzkum metod, které váží k obrovským souborům. Zavedení motorů hledání na internetu posílilo potřebu velmi velkých zmenšených získávacích systémů dokonce ještě více.
Použití digitálních metod na uložení a vytáhnutí informace vedlo k jevu digitální zastaralosti, kde digitální zdroj přestane být čitelný protože fyzická média, požadovaný čtenář číst média, hardware nebo software, který běží na to, je už ne dostupný. Informace jsou zpočátku snadnější získat než jestliže to bylo na papíře, ale je pak účinně ztracený.
Časová osa
- Před 1900s
- 1900s
- šedesátá léta: u časných šedesátých lét Gerard Salton začal práci na IR u Harvarda, později se stěhoval do Cornella.
- sedmdesátá léta
- osmdesátá léta
- devadesátá léta
Přehled
Proces získávání informací začne, když uživatel vloží dotaz do systému. Dotazy jsou formální prohlášení potřeb informací, například řetězce hledání ve webu hledají motory. V získávání informací dotaz jedinečně nepozná jediný objekt ve sbírce. Místo toho, několik objektů může odpovídat dotazu, snad s různými mírami důležitosti.
Objekt je entita, která se udržuje nebo uchovává informaci v databázi. Dotazy uživatele jsou přirovnány k objektům uloženým v databázi. Se spoléhat na aplikaci objekty dat mohou být, pro příklad, textové dokumenty, obrazy nebo videa. Často dokumenty sám nejsou se udržoval nebo skladoval přímo v IR systému, ale být raději reprezentovaný v systému náhradami dokumentu.
Nejvíce IR systémy počítají numerické skóre na jak dobře každý objekt v databázi odpovídat dotazu a pozici objekty podle této hodnoty. Špičkové hodnotící objekty jsou pak ukazovány k uživateli. Proces může pak být opakován jestliže uživatel přeje si čistit dotaz.
Míry výkonu
Mnoho různých mír pro hodnocení výkonu systémů získávání informací bylo navrhované. Míry vyžadují sbírku dokumentů a dotaz. Všechny společné dělitele popsaly tady převzít pravdu země ponětí o důležitosti: každý dokument je znán být jeden významný nebo non-významný pro zvláštní dotaz. V praxi dotazy mohou být nemocný-pózoval a tam smět být různé odstíny důležitosti.
Preciznost
Přesnost je zlomek dokumentů získal to být významný pro uživatelskou informační potřebu.
V binární klasifikaci, přesnost je analogická s pozitivní prediktivní hodnotou. Preciznost vezme všechny získané dokumenty do účtu. To může také být ohodnoceno u dané mezní pozice, rozvažování jen nejvyšší výsledky vrátily se systémem. Tato míra je nazývána precizností u n nebo P @ n.
Si všimnout toho význam a použití “preciznosti” na poli Information získávání se liší od definice správnosti a preciznosti uvnitř jiných odvětví vědy a technologie.
Si vzpomínat
Si vzpomínat je zlomek dokumentů, které jsou významné pro dotaz to být úspěšně získán.
V binární klasifikaci, si vzpomínat je volala citlivost. Tak to může být díval se na jako pravděpodobnost že významný dokument je získán dotazem.
To je triviální dosáhnout si vzpomínat 100 % tím, že vrátí všechny dokumenty v odezvě na nějaký dotaz. Proto si vzpomínat sám je ne dost ale jeden potřebuje změřit množství non-závažné doklady také, například tím, že počítá preciznost.
Fall-Out
Podíl non-závažné doklady, které jsou získány, ven celého non-dostupné závažné doklady:
V binární klasifikaci, fall-out je blízko příbuzný specificity1 - \ mbox {přesnost} < / matematika >. To může být díval se na jako pravděpodobnost to non-významný dokument je získán dotazem.
To je triviální dosáhnout fall-out 0 % tím, že vrátí dokumenty nuly v odezvě na nějaký dotaz.
F-míra
Posuzovaný harmonický zlý preciznosti a si vzpomínat, tradiční F-míra nebo balancoval F-skóre je:
Toto je také známé jak F1 míra, protože si vzpomínat a preciznost být rovnoměrně posuzovaný.
Obecný vzorec pro non-negativní skutečný? je:
Dva jiný běžně používaný F míry jsou F2 míra, které váhy vzpomínají si dvakrát jak hodně jako preciznost, a F0.5 míra, který zatíží preciznost dvakrát jak hodně jak si vzpomínat.
F-míra byla odvozena dodávkou Rijsbergen (1979) tak to Fβ “měří efektivitu získávání s ohledem na uživatele, který připevní? časy jako velký význam si vzpomínat jako preciznost”. To je založené na dodávce Rijsbergen je míra účinnosti E = 1? (1 / (? / P + (1??) / R )). Jejich vztah je Fβ = 1? E kde ? = 1 / (β2 + 1).
Preciznost průměru preciznosti a si vzpomínat
Preciznost a si vzpomínat být založený na celém seznamu dokumentů vrácených systémem. Preciznost průměru zdůrazní vracet více závažných dokladů dříve. To je průměr precisions vypočítavý poté, co zkrátil seznam po každém závažných dokladů podle pořadí:
kde r je pozice, N číslo získalo, rel () binární funkce na závažnosti dané hodnosti, a P () preciznost u dané mezní pozice.
Modelové typy
Pro získávání informací být účinný, dokumenty jsou typicky transformované do vhodné reprezentace. Tam je několik reprezentací. Obraz vpravo objasní vztah některých obyčejných modelů. Na obrázku, modely jsou roztříděny podle dvou rozměrů: matematický základ a vlastnosti modelu.
První rozměr: matematický základ
- Soubor-teoretické modely představit dokumenty jako soubory slov nebo fráze. Podoby jsou obvykle odvozeny ze souboru-teoretické operace na těch souborech. Obyčejné modely jsou:
- Algebraické modely reprezentovat dokumenty a dotazy obvykle jako vektory, matrices nebo n-tice. Podoba vektoru dotazu a vektor dokumentu je reprezentován jako skalární hodnota.
- Vektorový prostorový model
- Celkový vektorový prostorový model
- Téma-založený vektorový prostorový model (literatura: [1], [2 ])
- Prodloužený booleovský model
- Zlepšil téma-založený vektorový prostorový model (literatura: [3], [4 ])
- Latentní sémantické dělení aka latentní sémantickou analýzu
- Probabilistic modely zacházet s procesem vyhledávání dokumentů jako závěr probabilistic. Podoby jsou počítány jako pravděpodobnosti že dokument je významný pro daný dotaz. Probabilistic teorémy jako Bayesův teorém být často používán v těchto modelech.
Druhý rozměr: vlastnosti modelu
- Modely bez termínu-interdependencies zacházejí s různými požadavky/slovy jako nezávislá osoba. Tento fakt je obvykle reprezentován ve vektorových prostorových modelech orthogonality předpokladem o vektorech termínu nebo v modelech probabilistic předpokladem nezávislosti pro proměnné termínu.
- Modely s imanentním termínovým interdependencies dovolí reprezentaci interdependencies mezi požadavky. Nicméně míra interdependency mezi dvěma požadavky je definována modelem sám. To je obvykle přímo nebo nepřímo pocházel (např. rozměrnou redukcí) od
Vůdčí postavy
- Thomas Bayes
- Claude E. Shannon
- Gerard Salton
- Hans Peter Luhn
- Záhumenek W. Brucea
- Karen Spärck Jones
- C. J. dodávka Rijsbergen
- Stephen E. Robertson
- Martin Porter
Ceny na poli
Viz též
- Adversarial získávání informací
- Oblasti IR aplikace
- Sdružování
- Složené termínové zpracování
- Kontrolovaný slovník
- Kříž-jazykové získávání informací
- Pedagogická psychologie
- Volné vyhledávání textu
- Lidské počítačové získávání informací
- Těžba informací
- Potřeba informací
- Zařízení získávání informací
- Informatika
- Vizualizace znalostí
- Multisearch
- Osobní správa informací
- Závažnost (získávání informací)
- Odezva závažnosti
- Dělení předmětu
- Index hledání
- Výběr-založené hledání
- Tf-idf
Odkazy
- ^ b Singhal, Amit (2001).”Moderní získávání informací: Krátký přehled#rquote. Bulletin IEEE počítače společenský technický výbor pro inženýrství dat 24 (4): 35 – 43. http://singhal.info/ieee2001. pdf.
- ^ Doyle, Lauren; Joseph Becker (1975). Získávání informací a zpracování. Melville. pp. 410 stran. ISBN 0471221511.
- ^ Korfhage, Robert R. (1997). Ukládání informací a získávání. Wiley. pp. 368 stran. ISBN 978-0-471-14338-3. http://www.wiley.com/WileyCDA/WileyTitle/productCd-0471143383, descCd-authorInfo.html.
Externí odkazy
- ACM SIGIR: Získávání informací zájmová skupina
- BCS IRSG: Britská počítačová společnost - získávání informací skupina specialisty
- Textová získávací konference (TREC)
- Web Číňana fórum získávání informací (CWIRF)
- Získávání informací (online kniha) C. J. dodávka Rijsbergen
- Získávání informací Wiki
- Zařízení získávání informací
- Úvod k získávání informací (online kniha) Christopher D. Manning, Prabhakar Raghavan a Hinrich Schütze, Cambridge univerzitní tiskárna. 2008.