Ugrás a fő tartalomhoz

Kétmintás próbák

A kétmintás próbák két minta kapcsolatát vizsgálják.

Adottak a XN(m1,σ12)X \sim \mathrm{N}{\left(m_1, \sigma_1^2\right)} és YN(m2,σ22)Y \sim \mathrm{N}{\left( m_2, \sigma_2^2 \right)} független normális eloszlású valószínűsége változók, melyekből nn pár mintát veszünk.

Tekintsünk a m1=m2m_1=m_2, m1m2m1 \le m_2, m1m2m1 \ge m_2 hipotézisek egyikét mint nullhipotézis, ekkor elfogadásáról a minták függetlensége és a szórások ismeretétől függően eltérő módon döntünk a hipotézis elfogadásáról.

Minták függetlenekMinták nem függetelenek
σ1,σ2\mathbf{\sigma_1, \sigma_2} ismertkétmintás uu-próbaegymintás uu-próba a minták különbségére
σ1,σ2\mathbf{\sigma_1, \sigma_2} ismeretlen

Előzetes FF-próba, majd

{keˊtmintaˊt-proˊba,ha σ1=σ2Welch-proˊba,ha σ1σ2\begin{cases} \text{kétmintás } t\text{-próba}, &\quad \text{ha } \sigma_1 = \sigma_2 \\ \text{Welch-próba}, &\quad \text{ha } \sigma_1 \ne \sigma_2 \end{cases}
egymintás tt-próba a minták különbségére

A minták különbsége alatt azt a mintát értjük, melynek elemei a másik két minta elemeinek páronkénti különbsége.

Kétmintás uu-próba

Szinte azonos az egymintás uu-próbával.

Legyenek XX egy nn és YY egy mm elemű normális eloszlást követő minták. Ha, a nullhipotézis teljesül

T(X,Y)=XYσ12n+σ22m\mathrm{T}(X, Y) = \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}}

próbastatisztika standard normális eloszlást követ.

Ezt követően a hipotézisvizsgálat megegyezik az egymintás uu-próbánál tanulttal.

FF-próba

Mivel a szórások ismeretlenek a korrigált tapasztalati szórással becsüljük őket. Ha teljesül a nullhipotézis:

F={(S1)2(S2)2  F-eloszlaˊst ko¨vet (n1),(m1) parameˊterekkel, ha (S1)2>(S2)2(S2)2(S1)2  F-eloszlaˊst ko¨vet (m1),(n1) parameˊterekkel, ha (S1)2<(S2)2F = \begin{cases} \frac{(S_1^*)^2}{(S_2^*)^2} \; F\text{-eloszlást követ } (n-1), (m-1) \text{ paraméterekkel, ha } (S_1^*)^2 > (S_2^*)^2 \\ \frac{(S_2^*)^2}{(S_1^*)^2} \; F\text{-eloszlást követ } (m-1), (n-1) \text{ paraméterekkel, ha } (S_1^*)^2 < (S_2^*)^2 \end{cases}

Értékeit táblázatból olvassuk ki.

Kétmintás tt-próba

Tegyük fel, hogy a két minta szórása megegyezik, azaz σ1=σ2\sigma_1 = \sigma_2. Ekkor, ha a nullhipotézis igaz a

T(X,Y)=nmn+mXY(n1)(S1)2+(m1)(S2)2n1+m1\mathrm{T}(X,Y) = \sqrt{ \frac{nm}{n+m} } \cdot \frac{ \overline{X} - \overline{Y} }{ \sqrt{\frac{ (n-1) \cdot (S_1^*)^2 + (m-1) \cdot (S_2^*)^2 } {n-1+m-1} } }

próbastatisztika, (n+m2)(n+m-2) paraméterű Student-féle tt-eloszlást követ.

megjegyzés

SiS_i^* a korrigált tapasztalati szórás.

Ezt követően a hipotézisvizsgálat megegyezik az egymintás tt-próbánál tanulttal.

Welch-próba

Ha a nullhipotézis igaz,

XY(S1)2n+(S2)2m\frac{\overline{X} - \overline{Y}}{\sqrt{\frac{(S_1^*)^2}{n} + \frac{(S_2^*)^2}{m}}}

próbastatisztika ff paraméterű Student-féle tt eloszlást követ, ahol ff:

f=((S1)2n+(S2)2m)2((S1)2n)2n1+((S2)2m)2m1f = \frac {\left(\frac{(S_1^*)^2}{n} + \frac{(S_2^*)^2}{m}\right)^2} {\frac{\left(\frac{(S_1^*)^2}{n}\right)^2}{n - 1} + \frac{\left(\frac{(S_2^*)^2}{m}\right)^2}{m - 1}}

Feladatok

példa

5.3

Adott két minta két különböző gyáregység selejtarányáról. Elmondható-e, hogy az első egység jobban dolgozott mint a második?

A = [11.9, 12.1, 12.8, 12.2, 12.5, 11.9, 12.5, 11.8, 12.4, 12.9]
B = [12.1, 12.0, 12.9, 12.2, 12.7, 12.6, 12.6, 12.8, 12.0, 13.1]

Mivel a szórások ismeretlenek és a két gyáregység különbözik, FF-próbát kell végeznünk. Jelölje mAm_A az A és mBm_B a B gyáregység selejtarányát.

H0:mAmBH_0: m_A \ge m_B
H1:mB<mAH_1: m_B < m_A

Először meg kell határozni az átlagokat X=12,3\overline{X} = 12,3 és Y=12,5\overline{Y} = 12,5 és a tapasztalati szórásokat:

(S1)2=(0,4)2++(0,6)29=0,147(S_1^*)^2 = \frac{(0,4)^2+\dots+(0,6)^2}{9} = 0,147(S2)2=(0,41)2++(0,6)29=0,158(S_2^*)^2 = \frac{(0,41)^2+\dots+(0,6)^2}{9} = 0,158

FF-próba

Hf0:σ1=σ2H_{f_0}: \sigma_1 = \sigma_2
Hf1:σ1σ2H_{f_1}: \sigma_1 \ne \sigma_2

Ha a nullhipotézis teljesül és (S1)2<(S2)2(S_1^*)^2 < (S_2^*)^2, akkor a (S2)2(S1)2\frac{(S_2^*)^2}{(S_1^*)^2} próbastatisztika Fm1,n1=F9,9F_{m-1,n-1} = F_{9,9} eloszlást követ.

f=(S2)2(S1)2=0,1470,158=1,075f = \frac{(S_2^*)^2}{(S_1^*)^2} = \frac{0,147}{0,158} = 1,075

Mivel az FF eloszlás nem szimmetrikus, külön kell meghatároznunk a két kritikus tartományt. Az FF-eloszlás baloldali kritikus tartományának vége nagyon közel van nullához, ezért azt ki sem kell számolnunk.

Így elfogadjuk a nullhipotézist, ha

f=1,075<4,026=F9;9;0.025f = 1,075 < 4,026 = F_{9; \, 9; \, 0.025}

Ami nyilván teljesül, így elfogadjuk az FF-próba nullhipotézisét. Ezért az eredeti hipotézisünk vizsgálatához egy kétmintás tt-próbát végzünk.


Kétmintás tt-próba

Az eredeti hipotézisünket vizsgáljuk:
H0:mAmBH_0: m_A \ge m_B
H1:mB<mAH_1: m_B < m_A

Ha a nullhipotézis teljesül

T(X,Y)=nmn+mXY(n1)(S1)2+(m1)(S2)2n1+m1\mathrm{T}(X,Y) = \sqrt{ \frac{nm}{n+m} } \cdot \frac{ \overline{X} - \overline{Y} }{ \sqrt{\frac{ (n-1) \cdot (S_1^*)^2 + (m-1) \cdot (S_2^*)^2 } {n-1+m-1} } }

próbastatisztika, Student-féle tn+m2=t18t_{n+m-2}=t_{18} eloszlást követ. Elvégezve a behelyettesítést t=1,146t = -1,146. Mivel \ge relációt tekintünk a túl kicsi értékeket kell elutasítanunk. Mivel

t18;0,05=1,734<1,146=tt_{18; 0,05} = -1,734 < -1,146 = t

teljesül, ezért nem utasítjuk el a nullhipotézist, tehát nincs bizonyítékunk arra hogy az AA gyáregység jobban dolgozna.

példa

5.4

Adott két szervergép. Az elsőn 30 futtatás átlagos ideje 6,7 másodperc a másikon 20 futtatás esetén ez az átlag 7,2 másodperc. A futási idők szórása mindkét gépen 0,5 másodperc.

Van-e szignifikáns különbség a két szerver sebessége között?

H0:m1=m2H_0: m_1 = m_2
H1:m1m2H_1: m_1 \ne m_2

Mivel a szórások ismertek és a mintahalmazok függetlenek ezért kétmintás uu-próbát hajtunk végre:

T(X,Y)=XYσ12n+σ22m=6,77,20,5230+0,52203,46\mathrm{T}(X, Y) = \frac{\overline{X} - \overline{Y}}{\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}} = \frac{6,7 - 7,2}{\sqrt{\frac{0,5^2}{30} + \frac{0,5^2}{20}}} \approx -3,46

u0,025=1,96u_{0,025} = -1,96. Így, mivel

3,46(1,96;1,96)-3,46 \notin \left( -1,96; 1,96 \right)

ezért az ellenhipotézist fogadjuk el. Így azt feltételezhetjük, hogy szignifikáns különbség van a két szerver között.

példa

5.5

Két különböző napon megmértük két forgalmas közlekedési csomópontnál a levegőben található szennyezőanyag koncentrációját.

nov15 = [20.9, 17.1, 15.8, 18.8, 20.1, 15.6, 14.8, 24.1, 18.9, 12.5]
nov29 = [21.4, 16.7, 16.4, 19.2, 19.9, 16.6, 15.0, 24.0, 19.2, 13.2]

Szignifikánsan változott-e a légszennyezés?

H0:m15=m29H_0: m_{15} = m_{29}
H1:m15m29H_1: m_{15} \ne m_{29}

Mivel a mérések ugyan ott készültek a minták nem függetlenek, ezért egy olyan mintát kell nézni mely a két minta elemeinek páronkénti különbségét tartalmazza:

S = [0.5, -0.4, 0.6, 0.4, -0.2, 1.0, 0.2, -0.1, 0.3, 0.7]

Erre egy egymintás tt-próbát kell végrehajtani. Jelölje mkm_k a minták várható értékeinek különbségét:

Ht0:mk=0H_{t_0}: m_{k} = 0
Ht1:mk0H_{t_1}: m_{k} \ne 0

Ha a Ht0H_{t_0} nullhipotézis igaz, a próbastatisztika t9t_{9}-eloszlást követ.

S=0,3 \overline{S} = 0,3, így elvégezve a behelyettesítést:

nXm0Sn=100,3019(Xi0.32)2,038\sqrt{n} \cdot \frac{ \overline{X} - m_0 }{ S_n^* } = \sqrt{10} \cdot \frac{ 0,3 - 0 }{ \sqrt{\frac{1}{9} \cdot \sum{(X_i-0.3^2)}} } \approx 2,038

Egyenlőséget vizsgálunk ezért a lehetséges értékek két szélét kell kritikus tartománynak venni.

t9;0,025=2,262t_{9;0,025} = -2,262. Mivel 2,262<2,038<2,262-2,262 < 2,038 < 2,262 , ezért elfogadjuk a nullhipotézist, tehát kimondhatjuk, hogy a legszennyezés nem változott.