Ugrás a fő tartalomhoz

Nemparaméteres próbák

Diszkrét illeszkedésvizsgálat

Adott egy nn elemű minta, ahol rr-féle osztályba sorolható értéket vesznek fel a minták. Jelölje ezeket x1,x2,xrx_1, x_2, \dots x_r.

Az xix_i elem előfordulását (multiplicitását) jelölje: vi  (i=1,2,,r)v_i \; (i=1,2,\dots,r). Nullhipotézisként feltesszük, hogy a mintánk valamilyen diszkrét eloszlásra illeszkedik, azaz:

Pr(Xj=xj)=pj(j=1,,r)\Pr(X_j = x_j) = p_j \quad (j=1,\dots,r)

Ellenhipotézisünk, hogy a minta nem a nullhipotézisben feltett eloszlást követi, azaz van olyan jj, amire az előbbi feltétel nem teljesül.

A próbastasztikát a következő módon definiáljuk:

Tn=j=1r(vjnpj)2npjT_n = \sum_{j=1}^{r}{\frac{\left( v_j - n \cdot p_j \right)^2}{n \cdot p_j}}

ahol:

  • vjv_j: az adott elem gyakorisága
  • pjp_j: az adott elem valószínűsége, a vizsgált eloszlás alapján
  • npjn \cdot p_j: az adott elem elméleti gyakorisága

Ha a nullhipotézis teljesül a próbastasztika χ2\chi^2 eloszlást követ (r1)(r-1) paraméterrel. A hipotézisvizsgálat során (szinte) mindig jobb az eloszlás jobb oldalát vizsgáljuk. Ettől eltekintve az eddigiekkel azonos módon járunk el.

Példa 6.1/a

Egy gyárban egy termék minőségét 4 elemű mintákat véve ellenőrzik, havonta 300 mintavétellel. Megszámolták, hogy a legutóbbi hónapban hány alkalommal volt a mintában jj selejt:

(80,  113,  77,  27,  3)\left( 80, \; 113, \; 77, \; 27, \; 3 \right)

Modellezhető-e a minta (4;0,25)(4; 0,25) paraméterű binomiális eloszlással?

H0:H_0: a minta Bin(4;0,25)\mathrm{Bin}{(4; 0,25)} eloszlást követ.

A nullhipotézisről α=0,05\alpha = 0,05 konfidenciaszinten akarunk dönteni.

Ahhoz hogy a hipotézist vizsgálni tudjuk meg kell határoznunk a TnT_n próbastatisztika értékét. Ehhez szükségünk van az egyes osztályok valószínűségére és elméleti gyakoriságára.

A valószínűségek:

p0=Pr(X=0)=(40)(14)0(34)4=(34)4=812560,3164p1=Pr(X=1)=(41)(14)1(34)3=414(34)3=1082560,4219p2=Pr(X=2)=(42)(14)2(34)2=542560,2109p3=Pr(X=3)=(43)(14)3(34)1=122560,04688p4=Pr(X=4)=(44)(14)4(34)0=(14)4=12560,0039\begin{align*} p_0 = \Pr(X = 0) &= {4 \choose 0} \cdot \left(\frac{1}{4}\right)^0 \cdot \left(\frac{3}{4}\right)^4 = \left(\frac{3}{4}\right)^4 = \frac{81}{256} \approx 0,3164 \\ p_1 = \Pr(X = 1) &= {4 \choose 1} \cdot \left(\frac{1}{4}\right)^1 \cdot \left(\frac{3}{4}\right)^3 = 4 \cdot \frac{1}{4} \cdot \left(\frac{3}{4}\right)^3 = \frac{108}{256} \approx 0,4219 \\ p_2 = \Pr(X = 2) &= {4 \choose 2} \cdot \left(\frac{1}{4}\right)^2 \cdot \left(\frac{3}{4}\right)^2 = \frac{54}{256} \approx 0,2109 \\ p_3 = \Pr(X = 3) &= {4 \choose 3} \cdot \left(\frac{1}{4}\right)^3 \cdot \left(\frac{3}{4}\right)^1 = \frac{12}{256} \approx 0,04688 \\ p_4 = \Pr(X = 4) &= {4 \choose 4} \cdot \left(\frac{1}{4}\right)^4 \cdot \left(\frac{3}{4}\right)^0 = \left(\frac{1}{4}\right)^4 = \frac{1}{256} \approx 0,0039 \end{align*}

Ebből az elméleti gyakoriságok

(0,31640,42190,21090,04690,0039)300=(94,9126,663,314,11,2)\begin{pmatrix} 0,3164 \\ 0,4219 \\ 0,2109 \\ 0,0469 \\ 0,0039 \end{pmatrix} \cdot 300 = \begin{pmatrix} 94,9 \\ 126,6 \\ 63,3 \\ 14,1 \\ 1,2 \end{pmatrix}

Ekkor a próbastatisztika:

T300=j=1r(vjnpj)2npj=(8094,9)294,9+(113126,6)2126,6+(7763,3)263,3+(2714,1)214,1+(31,2)21,2=21,5\begin{align*} T_{300} &= \sum_{j=1}^{r}{\frac{\left( v_j - n p_j \right)^2}{n p_j}} \\ &= \frac{ \left( 80 - 94,9 \right)^2 }{94,9} + \frac{ \left( 113 - 126,6 \right)^2 }{126,6} + \frac{ \left( 77 - 63,3 \right)^2 }{63,3} + \frac{ \left( 27 - 14,1 \right)^2 }{14,1} + \frac{ \left( 3 - 1,2 \right)^2 }{1,2} \\ &= 21,5 \end{align*}

χ2\chi^2 eloszlást követ (r1)=(51)=4(r-1)=(5-1)=4 paraméterrel. A χ4;  0,052\chi^2_{4; \; 0,05} értéket keressük, ami táblázatból: 9,4889,488. Ennél a próbastatisztika értéke nagyobb azért elutasítjuk a nullhipotézist.

Függetlenségvizsgálat

Adott egy nn-elemű független elemekből álló minta, melynek elemeit két szempont szerint osztályozzuk.

  • az 1. szempont szerint legyen rr kategóriánk (pl. szín)
  • az 2. szempont szerint legyen ss kategóriánk (pl. magasság (alacsony, átlagos, magas))

Ezekből r×sr \times s mátrixot másnéven kontingenciatáblázatot konstruálunk, ahol a mátrix egy adott vijv_{ij} eleme, azt adja meg hány olyan mintaelem van, ami az 1. szempont szerint az ii-edik a 2. szempont szerint a jj-edik kategóriába esik.

Az adott sorok (1. kategória elemei) és oszlopok( 2. kategória elemei) összegeire speciális jelöléseket vezetünk be:

vi=j=1svijeˊsvj=i=1rvijv_{i\bullet} = \sum_{j=1}^{s}{v_{ij}} \qquad \text{és} \qquad v_{\bullet j} = \sum_{i=1}^{r}{v_{ij}}

Hasonlóan jelöljük a kategóriák valószínűségét:

pi=j=1spijeˊspj=i=1rpijp_{i\bullet} = \sum_{j=1}^{s}{p_{ij}} \qquad \text{és} \qquad p_{\bullet j} = \sum_{i=1}^{r}{p_{ij}}

Annak (elméleti) valószínűsége, hogy egy elem az ii-edik és jj-edik kategóriába esik legyen pijp_{ij}.

A teljes kontingenciatáblázat a következő módon néz ki:

2. szempont1jsSoro¨sszegek1v11v1jv1sv11. szempontivi1vijvisvirvr1vrjvrsvrOszlopo¨sszegekv1vjvsn\begin{array}{cc|ccccc|c} & & & & \text{2. szempont} & & \\ & & 1 & \cdots & j & \cdots & s & \text{Sorösszegek} \\ \hline & 1 & v_{11} & \cdots & v_{1j} & \cdots & v_{1s} & v_{1\bullet} \\ & \vdots & \vdots & & \vdots & & \vdots & \vdots \\ \text{1. szempont} & i & v_{i1} & \cdots & v_{ij} & \cdots & v_{is} & v_{i\bullet} \\ & \vdots & \vdots & & \vdots & & \vdots & \vdots \\ & r & v_{r1} & \cdots & v_{rj} & \cdots & v_{rs} & v_{r\bullet} \\ \hline \text{Oszlopösszegek} & & v_{\bullet 1} & \cdots & v_{\bullet j} & \cdots & v_{\bullet s} & n \end{array}

Nullhipotézisünk (H0H_0), hogy a két szempont független, azaz pij=pipj  (i[1,r],  j[1,s])p_{ij} = p_{i\bullet} \cdot p_{\bullet j} \; \left( i \in [1,r], \; j \in [1,s] \right).

Ha teljesül a nullhipotézis a

Tn=i=1rj=1s((vijvivjn)2nvivj)T_n = \sum_{i=1}^{r}{\sum_{j=1}^{s}{\left( \left( v_{ij} - \frac{v_{i\bullet} \cdot v_{\bullet j}}{n} \right)^2 \cdot \frac{n}{v_{i\bullet} \cdot v_{\bullet j}} \right)}}

próbastasztika χ2\chi^2 eloszlást követ (r1)(s1)(r-1) \cdot (s-1) paraméterrel. A hipotézisvizsgálat az illeszkedésvizsgálattal azonos módon történik.

Példa 6.2

Adott a következő kontingenciatáblázat:

Hőmérséklet / Csapadékkevésátlagossok
hűvös15105
átlagos101020
magas5205

α=0,05\alpha = 0,05 szignifikanciaszint mellett tekinthető-e a csapadékmennyiség és a hőmérséklet függetlennek.

H0H_0: hőmérséklet és csapadék független

A kiegészített kontingenciatáblázat:

Hőmérséklet / CsapadékkevésátlagossokÖsszeg
hűvös15105v1=30v_{1 \bullet} = 30
átlagos101020v2=40v_{2 \bullet} = 40
magas5205v3=30v_{3 \bullet} = 30
Összegv1=30v_{\bullet 1} = 30v2=40v_{\bullet 2} = 40v3=30v_{\bullet 3} = 30n=100n = 100
T100=i=13j=13((vijvivjn)2nvivj)=(v11v1v1100)2100v1v1+(v12v1v2100)2100v1v2+(v13v1v3100)2100v1v3+(v21v2v1100)2100v2v1+(v22v2v2100)2100v2v2+(v23v2v3100)2100v2v3+(v31v3v1100)2100v3v1+(v32v3v2100)2100v3v2+(v33v3v3100)2100v3v3=(153030100)21003030+(103040100)21003040+(53030100)21003030+(104030100)21004030+(104040100)21004040+(204030100)21004030+(53030100)21003030+(203040100)21003040+(53030100)21003030=(159)219+(1012)2112+(59)219+(1012)2112+(1016)2116+(2012)2112+(59)219+(2012)2112+(59)219=4+13+169+13+3616+6412+169+6412+169=22,916\begin{align*} T_{100} &= \sum_{i=1}^{3}{\sum_{j=1}^{3}{\left( \left( v_{ij} - \frac{v_{i\bullet} \cdot v_{\bullet j}}{n} \right)^2 \cdot \frac{n}{v_{i\bullet} \cdot v_{\bullet j}} \right)}} \\ &= \left( v_{11} - \frac{v_{1\bullet} \cdot v_{\bullet 1}}{100} \right)^2 \cdot \frac{100}{v_{1\bullet} \cdot v_{\bullet 1}} + \left( v_{12} - \frac{v_{1\bullet} \cdot v_{\bullet 2}}{100} \right)^2 \cdot \frac{100}{v_{1\bullet} \cdot v_{\bullet 2}} + \left( v_{13} - \frac{v_{1\bullet} \cdot v_{\bullet 3}}{100} \right)^2 \cdot \frac{100}{v_{1\bullet} \cdot v_{\bullet 3}} \\ &+ \left( v_{21} - \frac{v_{2\bullet} \cdot v_{\bullet 1}}{100} \right)^2 \cdot \frac{100}{v_{2\bullet} \cdot v_{\bullet 1}} + \left( v_{22} - \frac{v_{2\bullet} \cdot v_{\bullet 2}}{100} \right)^2 \cdot \frac{100}{v_{2\bullet} \cdot v_{\bullet 2}} + \left( v_{23} - \frac{v_{2\bullet} \cdot v_{\bullet 3}}{100} \right)^2 \cdot \frac{100}{v_{2\bullet} \cdot v_{\bullet 3}} \\ &+ \left( v_{31} - \frac{v_{3\bullet} \cdot v_{\bullet 1}}{100} \right)^2 \cdot \frac{100}{v_{3\bullet} \cdot v_{\bullet 1}} + \left( v_{32} - \frac{v_{3\bullet} \cdot v_{\bullet 2}}{100} \right)^2 \cdot \frac{100}{v_{3\bullet} \cdot v_{\bullet 2}} + \left( v_{33} - \frac{v_{3\bullet} \cdot v_{\bullet 3}}{100} \right)^2 \cdot \frac{100}{v_{3\bullet} \cdot v_{\bullet 3}} \\ &= \left( 15 - \frac{30 \cdot 30}{100} \right)^2 \cdot \frac{100}{30 \cdot 30} + \left( 10 - \frac{30 \cdot 40}{100} \right)^2 \cdot \frac{100}{30 \cdot 40} + \left( 5 - \frac{30 \cdot 30}{100} \right)^2 \cdot \frac{100}{30 \cdot 30} \\ &+ \left( 10 - \frac{40 \cdot 30}{100} \right)^2 \cdot \frac{100}{40 \cdot 30} + \left( 10 - \frac{40 \cdot 40}{100} \right)^2 \cdot \frac{100}{40 \cdot 40} + \left( 20 - \frac{40 \cdot 30}{100} \right)^2 \cdot \frac{100}{40 \cdot 30} \\ &+ \left( 5 - \frac{30 \cdot 30}{100} \right)^2 \cdot \frac{100}{30 \cdot 30} + \left( 20 - \frac{30 \cdot 40}{100} \right)^2 \cdot \frac{100}{30 \cdot 40} + \left( 5 - \frac{30 \cdot 30}{100} \right)^2 \cdot \frac{100}{30 \cdot 30} \\ &= \left( 15 - 9 \right)^2 \cdot \frac{1}{9} + \left( 10 - 12 \right)^2 \cdot \frac{1}{12} + \left( 5 - 9 \right)^2 \cdot \frac{1}{9} \\ &+ \left( 10 - 12 \right)^2 \cdot \frac{1}{12} + \left( 10 - 16 \right)^2 \cdot \frac{1}{16} + \left( 20 - 12 \right)^2 \cdot \frac{1}{12} \\ &+ \left( 5 - 9 \right)^2 \cdot \frac{1}{9} + \left( 20 - 12 \right)^2 \cdot \frac{1}{12} + \left( 5 - 9 \right)^2 \cdot \frac{1}{9} \\ &= 4 + \frac{1}{3} + \frac{16}{9} + \frac{1}{3} + \frac{36}{16} + \frac{64}{12} + \frac{16}{9} + \frac{64}{12} + \frac{16}{9} \\ &= 22,916 \end{align*}

Ha a nullhipotézis teljesül a próbastasztika χ2\chi^2 eloszlást követ (r1)(s1)=22=4(r-1) \cdot (s-1) = 2 \cdot 2 = 4 paraméterrel. Így a χ4;0,052\chi^2_{4; 0,05} értéket kell meghatározni, ami a táblázatból: 9,499,49. A próbastasztika értéke ennél nagyobb, ezért elutasítjuk a nullhipotézist.