Ugrás a fő tartalomhoz

Statisztika

A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.

— Wikipédia

Definíció

Független azonos eloszlású, valószínűségi változók egy X1,X2,XnX_1, X_2, \dots X_n sorozatát mintának nevezzük.

A valószínűségi változók egy konkrét ω\omega eseményre való kiértékelését azaz a X1(ω)=x1,X2(ω)=x2,,Xn(ω)=xnX_1(\omega) = x_1 , X_2(\omega) = x_2 , \dots, X_n(\omega) = x_n sorozatot a minta realizációjának nevezzük.

Az (n1)(n-1) számot a minta szabadsági fokának nevezzük.

Minta például:

  • egy hét napi középhőmérsékletei
  • egy osztály testmagasságai
  • egy részvény napi árfolyama

A statisztika, mint tudományág minták elemzésével foglalkozik.

Definíció (Statisztikai függvény)

Statisztika függvénynek (vagy röviden csak statisztikának) nevezzük az olyan többváltozós függvényeket, melyek értelmezési tartománya minta elemeit helyettesítjük.

Ez a definíció lehetővé teszi számunkra, az adathalmaz leírását, illetve következtetéséket felállítását is.

Statisztika például a jól ismert és gyakran előforduló átlag, szórás, módusz és medián.

Nevezetes statisztikák

Tekintsük adottnak az X=X1,X2,XnX = X_1, X_2, \dots X_n mintát, ekkor statisztikák a következők.

Mintaátlag

A minta elemeinek összege osztva a minta számosságával.

X=1ni=1nXi\overline{X} = \frac{1}{n} \sum_{i=1}^{n}{X_i}
megjegyzés

Ez éppen a várható érték E(X)\E(X).

Tapasztalati szórás

Az mintaelemek átlagtól való átlagos abszolút eltérés.

sn=1ni=1n(XiX)2s_n = \sqrt{\frac{1}{n} \sum_{i=1}^{n}{\left( X_i - \overline{X} \right)^2}}
megjegyzés

A tapasztalati elnevezés arra utal, hogy a minta elemei alapján áll elő.

Korrigált tapasztalati szórás

sn=1n1i=1n(XiX)2s_n^* = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n}{\left( X_i - \overline{X} \right)^2}}
megjegyzés

Tehát nem az elemszámmal hanem a minta szabadsági fokával osztunk.

Tapasztalati momentum

Legyen kN+k \in \mathbb{N}^+, ekkor a kk-adik tapasztalati momentum:

mk=1ni=1nXikm_k = \frac{1}{n} \sum_{i=1}^{n}{X_i^k}

Tapasztalati medián

A leggyakrabban előforduló érték.

Rendezett minta

Az X=X1,,XnX = X_1, \dots, X_n minta rendezése nem csökkenő sorrendben: X1XnX_1^* \le \dots \le X_n^*.

Tapasztalati módusz

A rendezett minta

  • középső (Xn+12X^*_{\frac{n+1}{2}}) eleme, ha a minta számossága páratlan
  • a két középső elemek (Xn2X^*_{\frac{n}{2}} és Xn+12X^*_{\frac{n+1}{2}}) átlaga, ha a minta számossága páros

Terjedelem

A rendezett minta utolsó és első elemének különbsége.

R=XnX1R = X_n^* - X_1^*

Kvantilis

A qzq_z kvantilis alatt a minta egy olyan feloszlását értjük, ahol a mintaelemek zz-ed része legfeljebb a további (1z)(1-z)-ed része pedig legalább a qzq_z értéket veszi fel.

Kvartilis

Kvartilisnek nevezzük a

  • Q1=q14Q_1 = q_{\frac{1}{4}}: alsó (vagy első) kvartilis
  • Q2=q12Q_2 = q_{\frac{1}{2}}: medián
  • Q3=q34Q_3 = q_{\frac{3}{4}}: felső kvartilis

kvantiliseket.

A Big Data tárgyról ismert Pokémon adathalmaz HP értékeinek kvartilisei:

KvartilisÉrték
Q1Q_150
Q2Q_265
Q3Q_380