Nevezetes papír
Cheatsheet
\(\alpha = 0.05\) (5%) unless task says otherwise
\(n\) (and sometimes \(m\)) is sample size (length)
- Terjedelem: \(\alpha\)
- Nullhipotézis (\(H_0\))
- Alternatív hipotézis (\(H_1\))
- \(1-\alpha\) megbízhatóság szint
- konfidencia intervallum: Olyan intervallum, mely legalább \(1 − \alpha\) valószínűséggel tartalmazza a paramétert minden \(\vartheta\) értékre.
Fajos hibák
- Hipotézisvizsgálatkor:
- Diszjunk felbontása a mintatérnek \(\mathcal{X}=\mathcal{X}_e\;\cap\;\mathcal{X}_k\)
- Elfogadási tartomány \(\mathcal{X}_e\)
- Kritikus tartomány \(\mathcal{X}_k\)
- Diszjunk felbontása a paramétertérnek \(\Theta=\Theta_0\;\cap\;\Theta_1\)
- \(H_0:\;\vartheta\in\Theta_0\) Nullhipotézis
- \(H_1:\;\vartheta\in\Theta_1\) Ellenhipotézis
| Döntés | Elfogadjuk \(H_0\)-t | Elutasítjuk \(H_0\)-t |
|---|---|---|
| Valóság | \(\mathcal{X}_e\) | \(\mathcal{X}_k\) |
| \(H_0\) teljesül \((\Theta_0)\) | \(\gray{\text{Helyes döntés}}\) | \(\red{\text{Elsőfajú hiba}}\) |
| \(H_0\) nem teljesül \((\Theta_1)\) | \(\green{\text{Másodfajú hiba}}\) | \(\blue{\text{Helyes döntés}}\) |
- \(\gray{\text{Helyes döntés}}\) Egy szép álom, de practically impossible
- A gyakorlati mérés 1:1 az elmélettel egyezik (not going to happen)
- \(\red{\text{Elsőfajú hiba}}\)
(type | error)- \(H_0\) igaz lenne, de mi mégis elutasítottuk
- Valószínűsége: \(\alpha(\vartheta):=P_\vartheta(\mathcal{X}_k)\)
- \(\vartheta\in\Theta_0\)
- \(\green{\text{Másodfajú hiba}}\)
(type || error)- \(H_0\) hamis lenne, de mi mégis elfogadtuk
- Valószínűsége: \(\beta(\vartheta):=P_\vartheta(\mathcal{X}_e)\)
- \(\vartheta\in\Theta_1\)
- \(\blue{\text{Erőfüggvény}}\) \(\psi:=P_\vartheta(\mathcal{X}_k)\)
- \(\vartheta\in\Theta_1\)
Alfa
A próba pontos terjedelme:
\[ \alpha:=\underset{\vartheta\in\Theta_0}{\sup}\;\alpha(\vartheta) \]
- Feladat elején rögzíteni szokás, általában
0.05- Ami lényegében 95%-os megbízhatóságot jelen a döntés meghozatalában
Egymintás
Egymintás u
- \(\sigma\) ismert, \(m\) ismeretlen
- Várható értékre becsül (EX)
eu - Próbastatisztika
\(T(X)=u:=\sqrt n \dfrac{\overline X-m_0}\sigma \sim N(0, 1)\)
eu - Kétoldali
Hipotézis:
\(H_0:m=m_0\)
\(H_1:~m\ne m_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:|u|>u_{1-\frac{\alpha}{2}}\}\)
eu - Egyoldali
Fölé:
Hipotézis:
\(H_0:m=m_0\)
\(H_1:~m> m_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:u>u_{1-\alpha}\}\)
Alá:
Hipotézis:
\(H_0:m=m_0\)
\(H_1:~m< m_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:u<-u_{1-\alpha}\}\)
Egymintás t
- \(\sigma\) és \(m\) ismeretlen
- Várható értékre becsül (EX)
et - Próbastatisztika
\(T(X)=t:=\sqrt n \dfrac{\overline X-m_0}{S_n^*} \sim t_{n-1}\)
et - Kétoldali
Hipotézis:
\(H_0:m=m_0\)
\(H_1:~m\ne m_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:|t|>t_{n-1,1-\frac{\alpha}{2}}\}\)
et - Egyoldali
Fölé:
Hipotézis:
\(H_0:m=m_0\)
\(H_1:~m> m_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:t>t_{n-1,1-\alpha}\}\)
Alá:
Hipotézis:
\(H_0:m=m_0\)
\(H_1:~m< m_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:t<-t_{n-1,1-\alpha}\}\)
Egymintás \(\chi^2\)
- \(\sigma\) és \(m\) ismeretlen
- Szórásra becsül (\(\sigma\))
R help:
\(\chi^2_{a,b}\) ~ qchisk(b, df = a)
ec - Próbastatisztika
\(T(X)=h:=\dfrac{(n-1)(S_n^*)^2}{\sigma_0^2} \sim \chi^2_{n-1}\)
ec - Kétoldali
*Hipotézis:*
\(H_0:\sigma=\sigma_0\)
\(H_1:~\sigma\ne \sigma_0\)
*Kritikus tartomány:*
\(\mathcal{X}_k=\{x:h<\chi^2_{n-1,\frac{\alpha}{2}}\lor h>\chi^2_{n-1,1-\frac{\alpha}{2}}\}\)
ec - Egyoldali
Fölé:
Hipotézis:
\(H_0:\sigma=\sigma_0\)
\(H_1:~\sigma> \sigma_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:h>\chi^2_{n-1,1-\alpha}\}\)
Alá:
Hipotézis:
\(H_0:\sigma=\sigma_0\)
\(H_1:~\sigma< \sigma_0\)
Kritikus tartomány:
\(\mathcal{X}_k=\{x:h<\chi^2_{n-1,\alpha}\}\)
Kétmintás próbák
Kétmintás esetben mi legyen?
| A két minta független | A két minta párosított | ||
|---|---|---|---|
| $\sigma_1$ és $\sigma_2$ ismert | kétmintás u-próba | egymintás u-próba a különbségre | |
| $\sigma_1$ és $\sigma_2$ ismeretlen |
előzetes F-próba | Egymintás T-próba a különbségre | |
| $\sigma_1$ = $\sigma_2$ | $\sigma_1$ != $\sigma_2$ | ||
| kétmintás T-próba | Welch-próba | ||
Kétmintás U próba
- \(X_n \sim N(m_1,\sigma_1^2)\)
- \(Y_m \sim N(m_2,\sigma_2^2)\)
- Független minták
- \(\sigma_1,\sigma_2\) ismert, \(m_1,m_2\) ismeretlen
- Várható érték egyezésre becsül (\(\sigma_1=\sigma_2\))
ku - Próbastatisztika
\(T(X,Y)=u:=\dfrac{\overline X - \overline Y}{\sqrt{\frac{\sigma_1^2}n+\frac{\sigma_2^2}m}} \sim N(0, 1)\)
ku - Kétoldali
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1\ne m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): |u| > u_{1-\frac{\alpha}2}\}\)
ku - Egyoldali
Fölé:
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1> m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): u > u_{1-\alpha}\}\)
Alá:
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1< m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): u <- u_{1-\alpha}\}\)
Kétmintás T próba
- \(X_n \sim N(m_1,\sigma_1^2)\)
- \(Y_m \sim N(m_2,\sigma_2^2)\)
- Független minták
- \(\sigma_1,\sigma_2, m_1,m_2\) ismeretlen, de tudjuk, hogy \(\sigma_1=\sigma_2\)
- Várható érték egyezésre becsül (\(\sigma_1=\sigma_2\))
kt - Próbastatisztika
\(T(X,Y)=t:=\sqrt{\dfrac{nm}{n+m}}\dfrac{\overline X - \overline Y}{\sqrt{\dfrac{(n-1)(S_1^*)^2+(m-1)(S_2^*)^2}{n+m-2}}} \sim t_{n+m-2}\)
kt - Kétoldali
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1\ne m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): |t| > t_{n+m-2,1-\frac{\alpha}2}\}\)
R help:
\(t_{f,\frac\alpha2}\) ~ qt(n+m-2, 1-alpha/2)
kt - Egyoldali
Fölé:
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1> m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): t > t_{n+m-2,1-\alpha}\}\)
Alá:
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1 < m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): t < -t_{n+m-2,1-\alpha}\}\)
Kétmintás Welch próba
- \(X_n \sim N(m_1,\sigma_1^2)\)
- \(Y_m \sim N(m_2,\sigma_2^2)\)
- \(\sigma_1, \sigma_2, m_1, m_2\) ismeretlen, de annyit tudunk, hogy \(\sigma_1 \ne \sigma_2\)
- Várható érték egyezésre becsül (\(m_1=m_2\))
kw - Próbastatisztika
\(T(X,Y)=t':=\dfrac{\overline X - \overline Y}{\sqrt{\frac{(S_1^*)^2}n+\frac{(S_2^*)^2}m}} \sim t_f\)
kw - Kétoldali
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1\ne m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): |t|>t_{f,\frac\alpha2}\}\)
R help:
\(t_{f,\frac\alpha2}\) ~ qt(f, alpha/2)
kw - Egyoldali
Fölé:
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1> m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): t >t_{f,\alpha}\}\)
Alá:
Hipotézis:
\(H_0:m_1=m_2\)
\(H_1:~m_1< m_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): t <-t_{f,\alpha}\}\)
Kétmintás F próba
- \(X_n \sim N(m_1,\sigma_1^2)\)
- \(Y_m \sim N(m_2,\sigma_2^2)\)
- \(\sigma_1,\sigma_2\) és \(m_1,m_2\) ismeretlen
- Szórás egyezésre becsül (\(\sigma_1=\sigma_2\))
kf - Próbastatisztika
\(T(X,Y)=F:=\dfrac{(S_1^*)^2}{(S_2^*)^2} \sim F_{n-1, m-1}\)
kf - Kétoldali
Hipotézis:
\(H_0:\sigma_1=\sigma_2\)
\(H_1:~\sigma_1\ne \sigma_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): F < F_{n-1,m-1,\frac\alpha2}\lor F > F_{n-1,m-1,1-\frac{\alpha}2}\}\)
R help:
\(F_{a,b,c}\) ~ qf(alphás izé, n-1, m-1)
kf - Egyoldali
Fölé:
Hipotézis:
\(H_0:\sigma_1=\sigma_2\)
\(H_1:~\sigma_1> \sigma_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): F < F_{n-1,m-1,1-\alpha}\}\)
Alá:
Hipotézis:
\(H_0:\sigma_1=\sigma_2\)
\(H_1:~\sigma_1< \sigma_2\)
Kritikus tartomány:
\(\mathcal{X}_k=\{(x,y): F < F_{n-1,m-1,1-\frac{1-\alpha}2}\}\)
How to p
Disclaimer: Itt qt és pt-t használunk, de természetesen bármilyen q és p függvénnyel működik.
- Fogjuk a kritikus tartományba lévő reláció cucclit(?)
- Átrendezzük úgy hogy a kvantilis (q-s függvény) az egyik oldalon legyen, minden más a másik oldalon
- A
minden más-tqt(pt(minden más))-ra átalakítod (A többi paramétert hozd át a másik oldalról!) - Elhagyod mindkét oldalról a
qt()-t- Mert szigorú monoton minen kvantilis függvény...
- Átrendezel úgy hogy egyik oldalon csak alfa legyen
- A másik szám legyen a p érték
- \(\blue{^*\text{All done}^*}\)
R
t < -qt(1-alpha, ...)
-t > qt(1-alpha, ...)
qt(pt(-t, ...), ...) > qt(1-alpha, ...)
pt(-t, ...) > 1-alpha
alpha > 1-pt(-t, ...)
p := 1-pt(-t, ...)
Illeszkedés
Chi squared illeszkedés
Diszkrét esetben
Ált. \(\frac{{(O-E)}^2}{E}\), ahol
- O: Tapasztalati gyakoriságok
- E: elméleti gyakoriságok
How to
- Kiszámolod
d-s függvénnyel az adott elemek valószínűségeit (ezek a p-k) - Mellé rakod a minta-beli előfordulásaikat
- Ezeket szépen belepakolod a próbastatisztikába
- Ha a kritikus tartományba beleesik akkor elveted a \(H_0\)-t és akkor NEM illeszkedik!!!
| Osztályok | 1 | 2 | 3 | \(\ldots\) | r | Összesen |
|---|---|---|---|---|---|---|
| Valószínűségek | \(p_1\) | \(p_2\) | \(p_3\) | \(\ldots\) | \(p_r\) | 1 |
| Gyakoriságok | \(N_1\) | \(N_2\) | \(N_3\) | \(\ldots\) | \(N_r\) | n |
\(H_0:\) a valószínűségek illeszkednek a gyakoriságra
\(H_1:\) a valószínűségek NEM illeszkednek a gyakoriságra
\(p_i\) a matematikai valószínűség, \(N_1\) a mért gyakoriság
Próbastatisztika: \(T_n(X)=\sum_{i=1}^r\frac{{(N_i-np_i)}^2}{np_i} \sim \chi^2_{r-1}\)
Kritikus tartomány: \(\mathcal{X}_k=\{x : T_n(x) > \chi^2_{r-1, 1-\alpha} \}\)
Ha ML-el becsülünk \(s\) paramétert, akkor \(\sim \chi^2_{r-1-s}\)
Hüvelykujjszabály: \(N_i \geq 4\) és \(np_i \geq 4\)
Kolmogorov-Szmirnov próba
Folytonos esetben
\(F(x)\) az adott eloszlásfüggvény (a p-s cuccli R-ben)
\(H_0: F_{x_1}(x)=F(x)\)
\(H_1:\) A nullhipotézis tagadása
Próbastatisztika: \(D_n(X) = \sup_{x \in \mathbb R}|F_n(x)-F(x)| \sim K\)
Kritikus tartomány: \(\mathcal{X}_k = \{x : \sqrt{n}D_n(x) > K_{1-\alpha}\}\)
R példa
Tegyük fel, hogy az alábbi megfigyeléseink vannak:
0, 2, 3, 3. Azt teszteljük Kolmogorov-Szmirnov próbával, hogy elfogadható-e, hogy a[0;4]intervallumon egyenletes eloszlásból kaptuk a mintaelemeket. Számolja ki a próbastatisztika értékét!
Itt D a próbastatisztika, p-value az a p érték (duh).
Homogenitás vizsgálat
Két minta megegyező eloszlású-e
Legyen a két minta közös szempont szerint \(r\) db osztályba sorolva. Mindkettőnek meg van adva a gyakoriságai (\(N_i, M_i\)), és az elemszámuk (\(n, m\)).
\(H_0:\) a két minta azonos eloszlású
\(H_1:\) nem
Próbastatisztika: \(T_{n, m}(X, Y) = nm\sum_{i=1}^r\frac{{(\frac{N_i}{n}-\frac{M_i}{m})}^2}{N_i+M_i} \sim \chi^2_{r-1}\)
Kritikus tartomány: \(\mathcal{X}_k=\{(X, Y) : T_{n, m}(X, Y) > \chi^2_{r-1, 1-\alpha}\}\)
Függetlenségvizsgálat how
Adott két ismérv csoport, a kérdés az, hogy a két szempont független-e egymástól
- \(p_{i,j}\)
- valószínűsége, hogy egy megfigyelés az \((i,j)\) osztályba kerül
- \(N_{i,j}\)
- Az \((i,j)\) osztályba került megfigyelések száma
| \(\begin{array}{ccccc}1&\ldots&j&\ldots&s\end{array}\) | Összesen | |
|---|---|---|
| \(\begin{array}{c}1\\\vdots\\j\\\vdots\\s\end{array}\) | \(\begin{array}{ccccc} N_{11} &\cdots & N_1j & \cdots & N_{1s} \\ \vdots && \vdots&&\vdots \\ N_{i1} & \cdots & N_{ij} & \cdots & N_{is} \\\vdots && \vdots&&\vdots \\ N_{r1} & \cdots & N_{rj} & \cdots & N_{rs} \end{array}\) | \(\begin{array}{c}N_{1\bull}\\\vdots\\N_{i\bull}\\\vdots\\N_{r\bull}\end{array}\) |
| Összesen | \(\begin{array}{ccccc}N_{\bull 1}&\ldots&N_{\bull j}&\ldots&N_{\bull s}\end{array}\) | n |
\(N_{i,\bull}=\underset{j=1}{\overset{s}{\sum}}N_{i,j}\qquad N_{\bull,j}=\underset{i=1}{\overset{r}{\sum}}N_{i,j}\)
- \(H_0:\) Az ismérvek függetlenek
- \(H_1:\) Nem függetlenek lol
Próbastatisztika:
Kritikus tartomány:
\(\mathcal{X}_k=\{(X,Y): T_n(X,Y)>\chi^2_{(r-1)\cdot(s-1),1-\alpha}\}\)