Kihagyás

3. Minta ZH Walkthrough

1

Legyen \(X\) \(Y\) független valószínűségi változók és legyen \(X\) és \(Y\) is \(m\) várható értékű és \(s\) szórású.Számolja ki \(D^2(- 2X + Y)\) értékét!


Azonosságok
  • \(D^2(X+Y) = D^2(X)+D^2(Y)+2\times cov(X,Y)\)
  • \(D^2(aX+b)= a^2\times D^2X\)
  • \(cov(X,Y)=E(X\times Y)-EX\times EY\)
  • \(cov(X,Y)=0\iff X\text{ és }Y\text{ függetlenek}\)

Feladat formálisan:

\[ X,Y:\quad cov(X,Y)=0;\quad EX=EY=m;\quad DX=DY=s;\quad D^2(−2X+Y)\stackrel?= \]

Megoldás:

\[ D^2(-2X+3Y)=\blue{D^2(-2X)}+\orange{D^2(3Y)}= \]
\[ \blue{(-2)^2D^2(X)}+\orange{3^2D^2(Y)} \]
\[ \blue{4D^2(X)}+\orange{9D^2(Y)} \]
\[ \xRightarrow{DX=DY=s}4s^2+9s^2=\boxed{13s^2} \]

2

Futtassa le R-ben az alábbi kódot. Mekkora a besatírozott terület? Válaszát indokolja!

x <- seq(-6, 6,length=500);
y <- dnorm(x, mean=0, sd=1.2);
plot(x,y,type="l",lwd=3,col="black",main = " ");
x <- seq(-6, -1, length=100);
y <- dnorm(x, mean=0, sd=1.2);
polygon(c(-6, x, -1),c(0,y,0),col="red")

Plot eredménye

Plot

Levezetés:

  • Kódól látszik, hogy ez egy normális eloszlás, -6 és -1 között kiemelve
  • Azt tudjuk, hogy a képen a normális eloszlásfüggvénye látható, aminek happens to be integrálja a sűrűségfüggvény
    • dnorm eloszláshoz
    • pnorm sűrűséghez
  • A pnorm(-1, mean=0, sd=1.2) az a \(\underset{-\infty}{\overset{-1}{\int}}\) lesz
    • de a \((-\infty,6)\) intervallumot le kéne vágni
  • pnorm(-6, mean=0, sd=1.2) pedig megadja a hiányzó integrált
  • Put it together 👍

Megoldás R:

pnorm(-1, mean=0, sd=1.2) - pnorm(-6, mean=0, sd=1.2)
#thx-bye

3

Tegyük fel, hogy egy választáson \(4\) millió ember vesz részt és hogy mindenki a többiektől függetlenül \(50\%\) valószínűséggel szavaz az "A" pártra. Adjon becslést a normális eloszlással való közelítés alapján annak a valószínűségére, hogy az "A" párt legalább \(1,999\) millió szavazatot kap!


Formálisan:

\[ n=4\times10^6;\quad p=0.5;\quad P(X\ge 1.999)\stackrel?= \]

Azonosságok
  • \(P(X\ge a)=1-P(X<a)\)
  • Normális standardizálása:
    • \(z=\dfrac{x-n}\sigma\)
Táblázat recap
Név Szignatúra Értékek Eloszlás \(EX\) \(D^2X\)
Normális \(N(m,\sigma^2)\) \((-\infty,\infty)\) \(\approx\Phi(x)\) \(m\) \(\sigma^2\)
Standard Normális \(N(0,1)\) \((-\infty,\infty)\) \(\Phi(x)\) \(0\) \(1\)

Megoldás:

\[ P(X\ge 1.999\times 10^6)= 1-P(X<1.999\times 10^6) \]
\[ E=m= n\times q = 4\times10^6\times0.5=2\times10^6 \]
\[ D=\sigma=\sqrt{mp}=\sqrt{2\times10^6\times0.5}=10^{6/2}=10^3 \]
\[ X\sim N(2\times10^6,10^6)\quad\tiny{=N(m,\sigma^2)} \]

standardizálás...

\[ P(X\ge 1.999\times 10^6)= \]
\[ P(Z\ge\dfrac{1.999\times 10^6 - 2\times 10^6}{1000})= \]
\[ P(Z\ge-\dfrac{1000}{1000})=P(Z\ge -1)= \]
\[ 1-P(Z<-1) = 1-\Phi(-1) \]
\[ \xRightarrow{\Phi(-1)=1-\Phi(1)}~\boxed{\approx0.8413 = 84.13\%} \]
  • Tip: \(Phi(1)\) can be calculated, using R
    • It's pnorm(1)

4

Melyik állítás igaz?

  • A nagy számok törvénye miatt számíthatunk rá, hogy az egyes lottószámok relatív gyakorisága ugyanahhoz a számhoz konvergál

  • A nagy számok törvénye miatt számíthatunk rá, hogy az eddig ritkábban előfordult lottószámok relatív gyakorisága az elméleti várható értéknél nagyobb lesz
    • BS, mert pont, hogy az elméleti várható értéket közelítjük a több méréssel
  • A nagy számok törvénye miatt számíthatunk arra, hogy az egyes lottószámok gyakoriságai közötti különbség 0-hoz fog tartani
    • A tapasztalati szórásra nem ad becslést a
  • A nagy számok törvénye miatt számíthatunk rá, hogy az egyes lottószámok relatív gyakorisága közelíthető normális eloszlással
    • A lottó az lehet hipergeometriai de akár Poisson 🥐 eloszlású, nem csak normális (a közelítés lehet fájna)

5

Hogyan változik a konfidenciaintervallum hossza a megbízhatósági szint csökkentésével (feltéve hogy a minta nem változik)?

  • Csökken

    • bruh?
  • Nem változik
    • bruhh??
  • Ennyi adatból nem lehet eldönteni
    • ...we just did bro

6

Tegyük fel, hogy a mintánk a 0-1-2 értékeket veheti fel, és azt teszteljük, hogy illeszkedik-e rá a binomiális \((2;0.2)\) eloszlás. A próbastatisztika értéke \(3.46\) lett. Mennyi a teszt \(p\)-értéke (két tizedesre kerekítve)?


  • \(r\): osztályok száma
  • \(df=r-1=2\)
  • pchisq()
1-pchisq(3.46, 2)
# 0.18

7

Melyik állítás igaz bármilyen, pontosan 5% terjedelmű próbára?

  • Van olyan paraméter a H0-ban, amelyre átlagosan, közelítőleg minden 20. esetben elkövetjük az elsőfajú hibát
    • Look at that \(5\%\) as \(\alpha=0.05\)

  • A kritikus tartomány valószínűsége 0,05 minden, H0-beli paraméterre
    • A tartománynak nincsen konrétan valószínűsége iirc
  • Az erőfüggvénye az ellenhipotézis minden elemére legalább 0.05
    • A már pontosan lett megadva, az alsó becslés sus
  • A próbastatisztika folytonos függvény
    • who asked?

8

Tegyük fel, hogy az alábbi megfigyeléseink vannak: \(0, 2, 3, 3\). Azt teszteljük Kolmogorov-Szmirnov próbával, hogy elfogadható-e, hogy a \([0;4]\) intervallumon egyenletes eloszlásból kaptuk a mintaelemeket. Számolja ki a próbastatisztika értékét! (Írja le a részletszámításokat is, nem elég csak a végeredmény.)


R függvények
  • c(a, b, ...)
    • Lista/tömb konstruktor
  • punif(x, min, max)
    • Egyenletes eloszlás
    • Annak is az eloszlás függvénye
  • ks.test
    • Funny Kolmogorov-Szmirknov
    • Megnézi, hogy adott függvény alkalmazása a mintára illeszkedik-e
    • Konfidenciát ad, mint a t.test, vagy a var.test

Reprezentáció:

minta<-c(0,2,3,3)
uniform_tester <- function(x) punif(x,0,4)
ks.test(minta, uniform_tester)
# p = 0.96 -> Elfogadható az egyenletes eloszlás
# próbastatisztika d-értéke 0.25

9

Tegyük fel, hogy egy kocka szabályossága a nullhipotézis, és kételemű minta alapján akkor fogadjuk el a \(H_0\)-t, ha a dobott számok összege legalább \(3\), de legfeljebb $11 $. Mennyi a próbánk elsőfajú hibavalószínűsége?


Leszűrt következtetés:

  • Két változó
  • 1-1 és 6-6 dobási eredmény hiba

Elfogadási tartomány:

\[ 3\le a+b\le 11 \]

Elsőfajú hiba = \(H_0\) igaz, de elutasítottuk

\(\vartheta\in\Theta_0:\)

\[ P_\vartheta(\mathcal{X}_k)=\frac2{6^2}=\frac2{36}=\frac1{18} \]

11

Tegyük fel, hogy egy \(80\) fős évfolyamon az első két dolgozatra az alábbi gyakorisági táblázatban szereplő eredmények születtek. Vajon ezen adatok alapján elfogadható-e az a nullhipotézis, hogy a két zh eredménye független? Írja le részletesen a megoldáshoz vezető lépéseket és adjon szöveges választ!

1.zh 2.zh gyenge közepes
gyenge 8 5 5
közepes 6 12 10
6 8 20

M <- matrix(c(8, 5, 5, 6, 12, 10, 6, 8, 20), ncol=3)
chisq.test(M)$p.value
# 0.0675 => nem utasítjuk el => függetlenek

16

Mi a kapcsolat az R2 és a korrigált változata között?

  • A korrigált a kisebb

  • A korrigált a nagyobb
  • Nincs egyértelmű sorrend
  • Egyenlőek, mert ugyannak a fogalomnak van két különböző elnevezése

??? title="EA - Lineáris model" Első Második


\[ R^2_{adj}=\dfrac{n-1}{n-p-1}\dfrac{SSR}{SS}<\dfrac{SS-SSR}{SS}=R^2 \]

18

Mi a szerepe az ablakszélességnek a Nadarajah-Watson féle becslésnél?


EA
  • Az ablakszélesség lényeges (nem könnyű a jó választása)
    • Ha túl kicsi, az egyedi megfigyelések zajosságát követi le a közelítés
    • Ha túl nagy, túlságosan sima eredményt kapunk

Basically, a regresszióhoz szabadon választott nemparaméteres közelítésben használt \(h_n\) "dummy" változó

Regresszió in a nutshell + közelítés
  • Adott Y nehezen mérhető eloszlás, amit megpróbálunk egy ismert, jól leírható X eloszlással közelíteni
    • Ebbe úgy jó belegondolni, hogy X az tisztán matematikai függvény (mondjuk normális, vagy 🥐), Y pedig ami a való életben mérésből kaptunk

Nemparaméteres közelítés:

\(E(\widehat{Y|X=x})=\dfrac{\sum^n_{i=1} Y_ik\Big(\frac{(x-X_i)}{h_n}\Big)}{\sum^n_{i=1} k\Big(\frac{(x-X_i)}{h_n}\Big)}\)

  • És az a \(h_n\) a mi ablakszélességünk
  • Ami úgy tűnik, választható, csak nagy eséllyel az ember túl/alul-lövi a célt, sebaj...

\(\supset\rightarrow\in S\lor\)