Kihagyás

Nevezetes papír


Cheatsheet

\(\alpha = 0.05\) (5%) unless task says otherwise

\(n\) (and sometimes \(m\)) is sample size (length)

  • Terjedelem: \(\alpha\)
  • Nullhipotézis (\(H_0\))
  • Alternatív hipotézis (\(H_1\))
  • \(1-\alpha\) megbízhatóság szint
  • konfidencia intervallum: Olyan intervallum, mely legalább \(1 − \alpha\) valószínűséggel tartalmazza a paramétert minden \(\vartheta\) értékre.

Fajos hibák

  • Hipotézisvizsgálatkor:
  • Diszjunk felbontása a mintatérnek \(\mathcal{X}=\mathcal{X}_e\;\cap\;\mathcal{X}_k\)
    • Elfogadási tartomány \(\mathcal{X}_e\)
    • Kritikus tartomány \(\mathcal{X}_k\)
  • Diszjunk felbontása a paramétertérnek \(\Theta=\Theta_0\;\cap\;\Theta_1\)
    • \(H_0:\;\vartheta\in\Theta_0\) Nullhipotézis
    • \(H_1:\;\vartheta\in\Theta_1\) Ellenhipotézis
Döntés Elfogadjuk \(H_0\)-t Elutasítjuk \(H_0\)-t
Valóság \(\mathcal{X}_e\) \(\mathcal{X}_k\)
\(H_0\) teljesül \((\Theta_0)\) \(\gray{\text{Helyes döntés}}\) \(\red{\text{Elsőfajú hiba}}\)
\(H_0\) nem teljesül \((\Theta_1)\) \(\green{\text{Másodfajú hiba}}\) \(\blue{\text{Helyes döntés}}\)
  • \(\gray{\text{Helyes döntés}}\) Egy szép álom, de practically impossible
    • A gyakorlati mérés 1:1 az elmélettel egyezik (not going to happen)
  • \(\red{\text{Elsőfajú hiba}}\) (type | error)
    • \(H_0\) igaz lenne, de mi mégis elutasítottuk
    • Valószínűsége: \(\alpha(\vartheta):=P_\vartheta(\mathcal{X}_k)\)
    • \(\vartheta\in\Theta_0\)
  • \(\green{\text{Másodfajú hiba}}\) (type || error)
    • \(H_0\) hamis lenne, de mi mégis elfogadtuk
    • Valószínűsége: \(\beta(\vartheta):=P_\vartheta(\mathcal{X}_e)\)
    • \(\vartheta\in\Theta_1\)
  • \(\blue{\text{Erőfüggvény}}\) \(\psi:=P_\vartheta(\mathcal{X}_k)\)
    • \(\vartheta\in\Theta_1\)

Alfa

A próba pontos terjedelme:

\[ \alpha:=\underset{\vartheta\in\Theta_0}{\sup}\;\alpha(\vartheta) \]
  • Feladat elején rögzíteni szokás, általában 0.05
  • Ami lényegében 95%-os megbízhatóságot jelen a döntés meghozatalában

Egymintás

Egymintás u

  • \(\sigma\) ismert, \(m\) ismeretlen
  • Várható értékre becsül (EX)

eu - Próbastatisztika

\(T(X)=u:=\sqrt n \dfrac{\overline X-m_0}\sigma \sim N(0, 1)\)

eu - Kétoldali

Hipotézis:

\(H_0:m=m_0\)

\(H_1:~m\ne m_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:|u|>u_{1-\frac{\alpha}{2}}\}\)

eu - Egyoldali

Fölé:

Hipotézis:

\(H_0:m=m_0\)

\(H_1:~m> m_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:u>u_{1-\alpha}\}\)


Alá:

Hipotézis:

\(H_0:m=m_0\)

\(H_1:~m< m_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:u<-u_{1-\alpha}\}\)

Egymintás t

  • \(\sigma\) és \(m\) ismeretlen
  • Várható értékre becsül (EX)

et - Próbastatisztika

\(T(X)=t:=\sqrt n \dfrac{\overline X-m_0}{S_n^*} \sim t_{n-1}\)

et - Kétoldali

Hipotézis:

\(H_0:m=m_0\)

\(H_1:~m\ne m_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:|t|>t_{n-1,1-\frac{\alpha}{2}}\}\)

et - Egyoldali

Fölé:

Hipotézis:

\(H_0:m=m_0\)

\(H_1:~m> m_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:t>t_{n-1,1-\alpha}\}\)


Alá:

Hipotézis:

\(H_0:m=m_0\)

\(H_1:~m< m_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:t<-t_{n-1,1-\alpha}\}\)


Egymintás \(\chi^2\)

  • \(\sigma\) és \(m\) ismeretlen
  • Szórásra becsül (\(\sigma\))

R help:

\(\chi^2_{a,b}\) ~ qchisk(b, df = a)

ec - Próbastatisztika

\(T(X)=h:=\dfrac{(n-1)(S_n^*)^2}{\sigma_0^2} \sim \chi^2_{n-1}\)

ec - Kétoldali

*Hipotézis:*

\(H_0:\sigma=\sigma_0\)

\(H_1:~\sigma\ne \sigma_0\)

*Kritikus tartomány:*

\(\mathcal{X}_k=\{x:h<\chi^2_{n-1,\frac{\alpha}{2}}\lor h>\chi^2_{n-1,1-\frac{\alpha}{2}}\}\)

ec - Egyoldali

Fölé:

Hipotézis:

\(H_0:\sigma=\sigma_0\)

\(H_1:~\sigma> \sigma_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:h>\chi^2_{n-1,1-\alpha}\}\)


Alá:

Hipotézis:

\(H_0:\sigma=\sigma_0\)

\(H_1:~\sigma< \sigma_0\)

Kritikus tartomány:

\(\mathcal{X}_k=\{x:h<\chi^2_{n-1,\alpha}\}\)

Kétmintás próbák

Kétmintás esetben mi legyen?

A két minta független A két minta párosított
$\sigma_1$ és $\sigma_2$ ismert kétmintás u-próba egymintás u-próba a különbségre
$\sigma_1$ és $\sigma_2$ ismeretlen
előzetes F-próba Egymintás T-próba a különbségre
$\sigma_1$ = $\sigma_2$ $\sigma_1$ != $\sigma_2$
kétmintás T-próba Welch-próba

Kétmintás U próba

  • \(X_n \sim N(m_1,\sigma_1^2)\)
  • \(Y_m \sim N(m_2,\sigma_2^2)\)
    • Független minták
  • \(\sigma_1,\sigma_2\) ismert, \(m_1,m_2\) ismeretlen
  • Várható érték egyezésre becsül (\(\sigma_1=\sigma_2\))

ku - Próbastatisztika

\(T(X,Y)=u:=\dfrac{\overline X - \overline Y}{\sqrt{\frac{\sigma_1^2}n+\frac{\sigma_2^2}m}} \sim N(0, 1)\)

ku - Kétoldali

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1\ne m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): |u| > u_{1-\frac{\alpha}2}\}\)

ku - Egyoldali

Fölé:

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1> m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): u > u_{1-\alpha}\}\)


Alá:

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1< m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): u <- u_{1-\alpha}\}\)


Kétmintás T próba

  • \(X_n \sim N(m_1,\sigma_1^2)\)
  • \(Y_m \sim N(m_2,\sigma_2^2)\)
    • Független minták
  • \(\sigma_1,\sigma_2, m_1,m_2\) ismeretlen, de tudjuk, hogy \(\sigma_1=\sigma_2\)
  • Várható érték egyezésre becsül (\(\sigma_1=\sigma_2\))

kt - Próbastatisztika

\(T(X,Y)=t:=\sqrt{\dfrac{nm}{n+m}}\dfrac{\overline X - \overline Y}{\sqrt{\dfrac{(n-1)(S_1^*)^2+(m-1)(S_2^*)^2}{n+m-2}}} \sim t_{n+m-2}\)

kt - Kétoldali

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1\ne m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): |t| > t_{n+m-2,1-\frac{\alpha}2}\}\)

R help:

\(t_{f,\frac\alpha2}\) ~ qt(n+m-2, 1-alpha/2)

kt - Egyoldali

Fölé:

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1> m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): t > t_{n+m-2,1-\alpha}\}\)


Alá:

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1 < m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): t < -t_{n+m-2,1-\alpha}\}\)


Kétmintás Welch próba

  • \(X_n \sim N(m_1,\sigma_1^2)\)
  • \(Y_m \sim N(m_2,\sigma_2^2)\)
  • \(\sigma_1, \sigma_2, m_1, m_2\) ismeretlen, de annyit tudunk, hogy \(\sigma_1 \ne \sigma_2\)
  • Várható érték egyezésre becsül (\(m_1=m_2\))

kw - Próbastatisztika

\(T(X,Y)=t':=\dfrac{\overline X - \overline Y}{\sqrt{\frac{(S_1^*)^2}n+\frac{(S_2^*)^2}m}} \sim t_f\)

\[ \frac{1}{f}=\frac{c^2}{n-1}+\frac{{(1-c)}^2}{m-1} \]
\[ c=\frac{\frac{{(s_1^*)}^2}{n}}{\frac{{(s_1^*)}^2}{n}+\frac{{(s_2^*)}^2}{m}} \]

kw - Kétoldali

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1\ne m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): |t|>t_{f,\frac\alpha2}\}\)

R help:

\(t_{f,\frac\alpha2}\) ~ qt(f, alpha/2)

kw - Egyoldali

Fölé:

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1> m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): t >t_{f,\alpha}\}\)


Alá:

Hipotézis:

\(H_0:m_1=m_2\)

\(H_1:~m_1< m_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): t <-t_{f,\alpha}\}\)


Kétmintás F próba

  • \(X_n \sim N(m_1,\sigma_1^2)\)
  • \(Y_m \sim N(m_2,\sigma_2^2)\)
  • \(\sigma_1,\sigma_2\) és \(m_1,m_2\) ismeretlen
  • Szórás egyezésre becsül (\(\sigma_1=\sigma_2\))

kf - Próbastatisztika

\(T(X,Y)=F:=\dfrac{(S_1^*)^2}{(S_2^*)^2} \sim F_{n-1, m-1}\)

kf - Kétoldali

Hipotézis:

\(H_0:\sigma_1=\sigma_2\)

\(H_1:~\sigma_1\ne \sigma_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): F < F_{n-1,m-1,\frac\alpha2}\lor F > F_{n-1,m-1,1-\frac{\alpha}2}\}\)

R help:

\(F_{a,b,c}\) ~ qf(alphás izé, n-1, m-1)

kf - Egyoldali

Fölé:

Hipotézis:

\(H_0:\sigma_1=\sigma_2\)

\(H_1:~\sigma_1> \sigma_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): F < F_{n-1,m-1,1-\alpha}\}\)


Alá:

Hipotézis:

\(H_0:\sigma_1=\sigma_2\)

\(H_1:~\sigma_1< \sigma_2\)

Kritikus tartomány:

\(\mathcal{X}_k=\{(x,y): F < F_{n-1,m-1,1-\frac{1-\alpha}2}\}\)

How to p

Disclaimer: Itt qt és pt-t használunk, de természetesen bármilyen q és p függvénnyel működik.

  • Fogjuk a kritikus tartományba lévő reláció cucclit(?)
  • Átrendezzük úgy hogy a kvantilis (q-s függvény) az egyik oldalon legyen, minden más a másik oldalon
  • A minden más-t qt(pt(minden más))-ra átalakítod (A többi paramétert hozd át a másik oldalról!)
  • Elhagyod mindkét oldalról a qt()-t
    • Mert szigorú monoton minen kvantilis függvény...
  • Átrendezel úgy hogy egyik oldalon csak alfa legyen
  • A másik szám legyen a p érték
  • \(\blue{^*\text{All done}^*}\)

R

t < -qt(1-alpha, ...)

-t > qt(1-alpha, ...)

qt(pt(-t, ...), ...) > qt(1-alpha, ...)

pt(-t, ...) > 1-alpha

alpha > 1-pt(-t, ...)

p := 1-pt(-t, ...)

Illeszkedés

Chi squared illeszkedés

Diszkrét esetben

Ált. \(\frac{{(O-E)}^2}{E}\), ahol

  • O: Tapasztalati gyakoriságok
  • E: elméleti gyakoriságok

How to

  • Kiszámolod d-s függvénnyel az adott elemek valószínűségeit (ezek a p-k)
  • Mellé rakod a minta-beli előfordulásaikat
  • Ezeket szépen belepakolod a próbastatisztikába
  • Ha a kritikus tartományba beleesik akkor elveted a \(H_0\)-t és akkor NEM illeszkedik!!!
Osztályok 1 2 3 \(\ldots\) r Összesen
Valószínűségek \(p_1\) \(p_2\) \(p_3\) \(\ldots\) \(p_r\) 1
Gyakoriságok \(N_1\) \(N_2\) \(N_3\) \(\ldots\) \(N_r\) n

\(H_0:\) a valószínűségek illeszkednek a gyakoriságra

\(H_1:\) a valószínűségek NEM illeszkednek a gyakoriságra

\(p_i\) a matematikai valószínűség, \(N_1\) a mért gyakoriság

Próbastatisztika: \(T_n(X)=\sum_{i=1}^r\frac{{(N_i-np_i)}^2}{np_i} \sim \chi^2_{r-1}\)

Kritikus tartomány: \(\mathcal{X}_k=\{x : T_n(x) > \chi^2_{r-1, 1-\alpha} \}\)

Ha ML-el becsülünk \(s\) paramétert, akkor \(\sim \chi^2_{r-1-s}\)

Hüvelykujjszabály: \(N_i \geq 4\) és \(np_i \geq 4\)

Kolmogorov-Szmirnov próba

Folytonos esetben

\(F(x)\) az adott eloszlásfüggvény (a p-s cuccli R-ben)

\(H_0: F_{x_1}(x)=F(x)\)

\(H_1:\) A nullhipotézis tagadása

Próbastatisztika: \(D_n(X) = \sup_{x \in \mathbb R}|F_n(x)-F(x)| \sim K\)

Kritikus tartomány: \(\mathcal{X}_k = \{x : \sqrt{n}D_n(x) > K_{1-\alpha}\}\)

R példa

Tegyük fel, hogy az alábbi megfigyeléseink vannak: 0, 2, 3, 3. Azt teszteljük Kolmogorov-Szmirnov próbával, hogy elfogadható-e, hogy a [0;4] intervallumon egyenletes eloszlásból kaptuk a mintaelemeket. Számolja ki a próbastatisztika értékét!

ks.test(c(0, 2, 3, 3), \(x) punif(x, 0, 4)) # D = 0.25, p-value = 0.9639

Itt D a próbastatisztika, p-value az a p érték (duh).

Homogenitás vizsgálat

Két minta megegyező eloszlású-e

Legyen a két minta közös szempont szerint \(r\) db osztályba sorolva. Mindkettőnek meg van adva a gyakoriságai (\(N_i, M_i\)), és az elemszámuk (\(n, m\)).

\(H_0:\) a két minta azonos eloszlású

\(H_1:\) nem

Próbastatisztika: \(T_{n, m}(X, Y) = nm\sum_{i=1}^r\frac{{(\frac{N_i}{n}-\frac{M_i}{m})}^2}{N_i+M_i} \sim \chi^2_{r-1}\)

Kritikus tartomány: \(\mathcal{X}_k=\{(X, Y) : T_{n, m}(X, Y) > \chi^2_{r-1, 1-\alpha}\}\)

Függetlenségvizsgálat how

Adott két ismérv csoport, a kérdés az, hogy a két szempont független-e egymástól

  • \(p_{i,j}\)
    • valószínűsége, hogy egy megfigyelés az \((i,j)\) osztályba kerül
  • \(N_{i,j}\)
    • Az \((i,j)\) osztályba került megfigyelések száma
\(\begin{array}{ccccc}1&\ldots&j&\ldots&s\end{array}\) Összesen
\(\begin{array}{c}1\\\vdots\\j\\\vdots\\s\end{array}\) \(\begin{array}{ccccc} N_{11} &\cdots & N_1j & \cdots & N_{1s} \\ \vdots && \vdots&&\vdots \\ N_{i1} & \cdots & N_{ij} & \cdots & N_{is} \\\vdots && \vdots&&\vdots \\ N_{r1} & \cdots & N_{rj} & \cdots & N_{rs} \end{array}\) \(\begin{array}{c}N_{1\bull}\\\vdots\\N_{i\bull}\\\vdots\\N_{r\bull}\end{array}\)
Összesen \(\begin{array}{ccccc}N_{\bull 1}&\ldots&N_{\bull j}&\ldots&N_{\bull s}\end{array}\) n

\(N_{i,\bull}=\underset{j=1}{\overset{s}{\sum}}N_{i,j}\qquad N_{\bull,j}=\underset{i=1}{\overset{r}{\sum}}N_{i,j}\)

\[ p_{i,j}=P(X_1=x_i,\;Y_1=y_j)\quad\big(i\in[1,r],\;j\in[1,s]\big) \]
  • \(H_0:\) Az ismérvek függetlenek
  • \(H_1:\) Nem függetlenek lol

Próbastatisztika:

\[ T_n(X,Y)=\left(\underset{i=1}{\overset{r}{\sum}}\underset{j=1}{\overset{s}{\sum}}\dfrac{\left(N_{i,j}-\frac{N_{i\bull}N_{j \bull}}n\right)^2}{\frac{N_{i\bull}N_{j \bull}}n}\right) \sim \chi^2_{(r-1)(s-1)} \]

Kritikus tartomány:

\(\mathcal{X}_k=\{(X,Y): T_n(X,Y)>\chi^2_{(r-1)\cdot(s-1),1-\alpha}\}\)