wikipedia.infostar.cz

Statistiky

Statistiky je způsob, jak sbírat a analyzovat měření. Statistiky je používán popisovat data a testovat teorie o světě a jak to pracuje. Statistiky je založený na pravděpodobnosti — “práva šance”.

Statistiky mohou být rozděleny do 3 částí:

Nepřehlédněte: Tato stránka obsahuje strojový překlad textu z anglické encyklopedie Wikipedia. Pokud budou některé pasáže špatně srozumitelné, zkuste se podívat i na text v originále, který najdete pod odkazem Statistics. Překlad byl vytvořen pomocí překladače Eurotran.

  1. Probability distribuce, které jsou vyčnívaly z Probability teorie od matematiky
  2. Popisná statistika - popisovat data sbíraná přes pozorování nebo experimenty
  3. Inferential statistiky - předpokládat, že nasbírané údaje jsou od jistého rozdělení pravděpodobnosti, a založený na tom rozdělení pravděpodobnosti atributy a vlastnosti, my můžeme dělat statistické závěry, takový jako názor, předpověď a předpovídání

Sbírání dat

Předtím svět může být popisován se statistikami, data musí být klidný. Tato data mají tvar měření. Po data jsou sbírána, tam bude série čísel, která popisují to pozorování nebo měření. Typický příklad by mohl být zjistit jak populární jistý tv program je, kolik lidí sleduje to. Další příklad by mohl být zjistit, zda jistá droga pomáhá v léčení specifické nemoci.

Metody

Nejvíce obyčejně statistická data jsou tím, že dělá průzkumy nebo experimenty. Průzkumy jsou dělány používáním malý počítat jednotlivce a sbírání dat od nich. Oni mohou být kladené otázky, jestliže tam jsou lidé. Jestliže oni nejsou, některá měření by mohla být vzata od nich.

Volba kterých jednotlivců brát pro průzkum nebo data sbírka je velmi důležitá, jako to přímo ovlivňuje statistiky. Když statistiky jsou dělány, to může už ne být určováno kteří jednotlivci jsou vzati. Předpokládejte, vodní kvalita jezera potřebuje být změřen. Je to velké jezero. Jestliže vzorky jsou vzaty vedle odtoku odpadu, výsledky tohoto budou úplně jiné, než jestliže vzorky jsou podvedené vzdálený, téměř nepřístupná trocha jezera,

Jsou tam dva druhy problémů, které jsou obyčejně objevily, když braní ochutná:

  1. Jestliže tam je mnoho vzorků, se vyrovnal velikosti veškerého obyvatelstva, vzorky chtějí pravděpodobně být velmi blízký k čemu oni jsou ve skutečné populaci. Jestliže tam je velmi nemnoho vzorků, nicméně, oni by mohli být velmi odlišní od čeho oni jsou ve skutečné populaci. Tato chyba je nazývána náhodnou chybou.
  2. Jednotlivci pro vzorky potřebují být vybrán opatrně. Jestliže toto není případ, vzorky by mohly být velmi odlišné od čeho oni opravdu jsou ve veškerém obyvatelstvu. Toto je pravdivé dokonce jestliže velké množství vzorků je vzato. Tento druh chyby je volala zaujatost



Chyby

My můžeme vyhnout se náhodným chybám tím, že vezme větší vzorek, a my můžeme vyhnout se nějaké zaujatosti tím, že si vybere náhodně. Nicméně, někdy velké namátkové vzorky jdou těžko chytat. A zaujatost může stát se jestliže někteří lidé odmítnou odpovědět na naše otázky, nebo jestliže oni vědí, že oni dostanou falešnou léčbu. Tyto problémy mohou jít obtížně stanovit.

Popisná statistika

Nacházet střed dat

Střed dat je často nazýván průměrem. Průměr řekne nám o typickém jednotlivci v populaci. Tam jsou tři druhy průměru to být často používán: zlý, střední a režim.

Příklady dole používají tohoto vzorkového data:

 Jméno | B C D E F G H já J 
 -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- - 
  skóre | 23 26 49 49 57 64 66 78 82 92

Zlý

Rovnice pro zlý je

\bar x = \frac{1}{N}\sum_{i=1}^N x_i = \frac{x_1+x_2+\cdots+x_N}{N}

Kde x_1, x_2, \ldots, x_N jsou data a N je velikost populace. (vidět Sigma notace).

V našem příkladě \bar x =  (23+26+49+49+57+64+66+78+82+92)/10 = 58.6

Problém s zlý je že to dělá už ne říci o jak hodnoty jsou rozděleny. To jde snadno ovlivnit zlý extrémními hodnotami. Ve statistikách, extrémní hodnoty by mohly být chyby měření,

Střední

střední je střed položka dat. To shledá střední my druh data z nejmenšího čísla k největšímu číslu a pak zvolit číslo uprostřed. Jestliže tam být dokonce množství dat, které my si vybereme dva střední a počítat jejich zlý. V našem příkladě je jich tam 10 položky dat, dva střední jsou “E” a “F”, tak střední je (57 + 64) / 2 = 60.5.

Režim

režim je nejčastější položka dat. Například nejvíce obyčejný dopis v angličtině je dopis “e”. My bychom říkali, že “e” je způsob distribuce dopisů.

Nacházet šíření dat

Jiná popisná statistika

My používáme to, aby zjistil že nějaké procento, percentile, číslo nebo zlomek lidí nebo věcí ve skupině dělají něco nebo odpovídají určité kategorii.

Například, sociologové používali statistiky, aby zjistil to 49 % lidí na světě jsou muži.

Viz též: Normální distribuce