Rozkłady wywodzące się z rozkładu normalnego
standardowego
Bardzo ważną rolę w statystyce odgrywają trzy rozkłady
zmiennych losowych bazujące na zmiennych o standardowych rozkładach normalnych. Są to następujące rozkłady:
1. 2 - (Chi-kwadrat)
2. t-Studenta
3. F-Fishera-Snedecora.
Ze statystykami opartymi na tych rozkładach związane są
takie działy statystyki jak: przedziały ufności, weryfikacja
hipotez, analiza wariancji i regresji.
1
Rozkład Chi-kwadrat
Zmienna losowa X ma rozkład Chi-kwadrat Pearsona,
jeżeli jej funkcja gęstości prawdopodobieństwa dana jest
wzorem:
dla x 0
0
f ( x) 2v 1 v 2v 1 2x
dla x 0
2 2 x e
Wielkość v występująca w podanym wyżej wzorze jest
jednocześnie wartością oczekiwaną tej zmiennej, a jej
podwojona wartość jest wariancją zmiennej:
E 2 v
D2 2 2v
2
Rozkład Chi-kwadrat (c.d.)
Jeżeli zmienne xi mają wszystkie standardowy rozkład
normalny N(0; 1) i są niezależne, to zmienna:
v
2v xi2
dla
i 1, 2, . . . , v
i 1
ma rozkład chi-kwadrat.
Liczbę v nazywamy liczbą stopni swobody, wskazuje
ona liczbę niezależnych składników zmiennej 2v , jest
jednocześnie wartością oczekiwaną tej zmiennej
losowej. Wariancja tej zmiennej jest równa 2v.
3
Rozkład Chi-kwadrat (c.d.)
Poniżej podane są wykresy funkcji gęstości prawdopodo-
bieństwa zmiennej dla trzech wybranych stopni swobody.
4
Rozkład t-Studenta
Zmienna losowa t ma rozkład t-Studenta, jeśli jej funkcja
gęstości prawdopodobieństwa dana jest wzorem:
1 ( v v1 ) t
f v (t )
1
v
v
v ( 2 )
2
vv1
dla t R i v N
Liczba v jest liczbą stopni swobody, a parametrami
rozkładu tej zmiennej losowej są odpowiednio:
Et 0 dla v 1
v
Dt
v2
2
dla v 2
5
Rozkład t-Studenta (c.d.)
Jeżeli zmienne losowe X 0 , X 1 , X 2 , . . . , X v są niezależnymi zmiennymi losowymi o standardowym
rozkładzie normalnym, to zmienna:
X0
t
v
1
v
2
X
i
i 1
ma rozkład t-Studenta z liczbą stopni swobody v.
6
Rozkład t-Studenta (c.d.)
Poniżej podane są przykładowe wykresy funkcji gęstości
rozkładu t-Studenta dla trzech wybranych stopni swobody.
0.4
v=30
v=4
0.3
v=1
0.2
0.1
0
-3
-2
-1
0
1
2
3
7
Rozkład F-Fishera-Snedecora
Zmienna losowa X ma rozkład F-Fishera-Snedecora, jeżeli jej
funkcja gęstości prawdopodobieństwa dana jest wzorem:
0
u 1
u v uv
x2
f u ,v ( x ) 2 2
2
uv
uv
u
v
2
(
ux
v
)
2
2
dla
x0
dla
x0
gdzie u i v są liczbami stopni swobody.
Parametrami zmiennej losowej F-Fishera-Snedecora są
odpowiednio:
v
EF
v2
dla v 2
2
2
v
(u v 2)
D2 F
u(v 2) 2 (v 4)
dla v 4
8
Rozkład F-Fishera-Snedecora (c.d.)
Jeżeli zmienne losowe X 1 , X 2 , . . . , X u i Y1 , Y2 , . . . , Yv
są niezależnymi zmiennymi losowymi o standardowym
rozkładzie normalnym, to zmienna:
u
1
u
2
X
i
i 1
v
1
v
Y
2
i
i 1
ma rozkład F-Fishera-Snedecora z liczbami stopni swobody
u i v.
9
Rozkład F-Fishera-Snedecora (c.d.)
Poniżej podane są przykładowe wykresy funkcji gęstości
rozkładu F-Fischera-Snedecora dla trzech wybranych par
stopni swobody
10
Wielowymiarowe
zmienne
losowe
11
Wprowadzenie
Niech E będzie zbiorem zdarzeń elementarnych danego eksperymentu. Układ n funkcji (X1, X2, ..., Xn) przyporządkowujących
każdemu zdarzeniu elementarnemu eE n liczb rzeczywistych (x1,
x2, ..., xn) nazywamy zmienną losową n-wymiarową.
Przykład: W badaniach sytuacji finansowej rodzin analizujemy
takie cechy jak:
x1 - liczbę członków rodziny;
x2 - dochód na członka;
x3 - liczbę izb w mieszkaniu.
Wyniki pomiarów dla poszczególnych rodzin, uporządkowane w
podany wyżej sposób można traktować jako realizację 3-wymiarowej zmiennej losowej (X1, X2, X3).
12
Dwuwymiarowe zmienne losowe
Zmienne losowe (dwuwymiarowe) wielowymiarowe mogą być
zarówno skokowe jak i ciągłe.
Dwuwymiarowa zmienna losowa (X, Y) jest typu skokowego,
jeżeli przyjmuje skończoną lub przeliczalną liczbę wartości (xi,
yj) z odpowiednimi prawdopodobieństwami pij.
Rozkład dwuwymiarowej zmiennej losowej typu skokowego
może być określony funkcją rozkładu prawdopodobieństwa:
P( X xi Y y j ) pij
gdzie pij 1
i, j
13
Dwuwymiarowe zmienne losowe
Rozkład dwuwymiarowej zmiennej losowej typu skokowego
może być także określony funkcją dystrybuanty:
F ( x , y ) P( X x Y y )
P( X xi Y y j )
xi x y j y
14
Przykład liczbowy
Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X
jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu.
Niech f.r.p. tej zmiennej będzie dana tabelką
X
1
2
3
4
p.j
Y
1
0,06
0,07
0,07
0,05
0,25
2
0,03
0,04
0,06
0,12
0,25
3
0,04
0,13
0,20
0,13
0,50
pi.
0,13
0,24
0,33
0,30
1,00
15
Rozkłady brzegowe
Rozkład jednej tylko zmiennej, X lub Y, bez względu na
rozkład drugiej, będziemy nazywali rozkładem brzegowym
tej zmiennej.
Rozkłady brzegowe są rozkładami jednowymiarowymi, a ich
f.r.p. określone są następująco:
P ( X xi ) pi . pij
j
P (Y y j ) p. j pij
i
16
Niezależność zmiennych losowych
Dwuwymiarowe zmienne losowe skokowe (X,Y) są
niezależne, jeżeli:
dla każdego i,j. pij pi . p. j
Dla dwuwymiarowych zmiennych losowych dowolnego typu
warunek niezależności można zdefiniować następująco:
zmienne losowe (X,Y) są niezależne wtedy i tylko wtedy,
gdy F(x,y)=F(x)F(y)
17
Rozkłady warunkowe
W przypadku rozkładów dwuwymiarowych istnieje możliwość określenia rozkładu jednej zmiennej pod warunkiem, że
druga zmienna przyjmie określone wartości.
Warunkowe funkcje rozkładu prawdopodobieństwa
określone są następująco:
P ( X xi Y y j )
P (Y y j X xi )
pij
p. j
pij
pi .
18
Warunkowe funkcje prawdopodobieństwa
Obliczając warunkowe f.r.p. dla zmiennej losowej Y w
naszym przykładzie otrzymamy:
pij
Y
X xi
1
2
3
4
1
0,46
0,29
0,21
0,17
2
0,23
0,17
0,18
0,40
3
0,31
0,54
0,61
0,43
j
pi .
1
1
1
1
19
Parametry rozkładu dwuwymiarowej zmiennej losowej
Momentem zwykłym rzędu k+l (k, l = 0, 1,...) dwuwymiarowej
zmiennej losowej (X,Y) typu skokowego nazywamy wyrażenie:
mkl EX k Y l xik y lj pij
i
j
Z powyższego wynika, że istnieją dwa momenty rzędu pierwszego
m10 i m01, przy czym
m10=EX oraz m01=EY,
tym samym momenty te są wartościami oczekiwanymi w
rozkładach brzegowych zmiennych X i Y.
20
Parametry rozkładu (c.d.)
Podobnie istnieją trzy momenty rzędu drugiego:
m20=EX2; m02=EY2; m11=EXY
Przykład: Obliczając momenty rzędu pierwszego i drugiego w
naszym przykładzie otrzymujemy:
m10=EX=1 • 0,13 + 2 • 0,24 + 3 • 0,33 + 4 • 0,30 = 2,8
m01=EY=1 • 0,25 + 2 • 0,25 + 3 • 0,50 = 2,25
m20=EX2=12 • 0,13+22 • 0,24+32 • 0,33+42 • 0,30 = 0,13+0,96+2,97+4,80 = 8,86
m02=EY2=12 • 0,25 + 22 • 0,25 + 32 • 0,50 = 0,25 + 1,00 + 4,50 = 5,75
m11=EXY=1 • 1 • 0,06 + 1 • 2 • 0,03 +1 • 3 • 0,04+2 • 1 • 0,07+ 2 • 2 • 0,04 +
+ 2 • 3 • 0,13 +3 • 1 • 0,07 +3 • 2 • 0,06 +3 • 3 • 0,20+
+ 4 • 1 • 0,05 + 4 • 2 • 0,12 + 4 • 3 • 0,13 = 0,24 + 1,08 + 2,37 + 2,72 = 6,41
21
Parametry rozkładu (c.d.)
Momentem centralnym rzędu k+l (k, l = 0, 1,...) dwuwymiarowego rozkładu zmiennej losowej (X,Y) typu skokowego
nazywamy wyrażenie:
kl E ( X m10 ) k (Y m01 ) l
( xi m10 ) k ( y j m01 ) l pij
i
j
22
Obliczanie momentów centralnych
Z definicji momentu centralnego wynika, że:
10 E ( X m10 ) 0,
01 E (Y m01 ) 0
20 E ( X m10 ) 2 D2 X , 02 E (Y m02 ) 2 D2Y
Istnieje jeszcze jeden moment centralny rzędu
drugiego:
11 E ( X m10 )(Y m01 )
Moment ten nazywamy kowariancją i oznaczamy
symbolem CXY.
23
Związki między momentami
Między momentami
zachodzą związki:
centralnymi
a
zwykłymi
20 m20 m102
02 m02 m012
11 m11 m10m01 EXY EX EY
Można udowodnić, że jeżeli zmienne losowe (X,Y)
są niezależne, to kowariancja jest równa zero. O
zmiennych (X,Y), dla których CXY=0 mówimy, że są
nieskorelowane.
24
Współczynnik korelacji
Z kowariancją związany jest jeszcze jeden parametr rozkładu
dwuwymiarowego, tzw. współczynnik korelacji zmiennych
losowych (X,Y):
CXY
DX DY
Z własności kowariancji wynika następująca własność
współczynnika korelacji:
1 1
Współczynnik korelacji jest miarą siły związku między
zmiennymi losowymi.
25
Obliczenia momentów centralnych i
współczynnika korelacji
Korzystając ze związków między momentami otrzymujemy
w naszym przykładzie:
20 8,86 2,82 8,86 7,84 1,02
02 5,75 2,252 5,75 5,0625 0,6875
11 6,41 2,8 2,25 6,41 6,3 0,11
Możemy już obliczyć współczynnik korelacji:
0,11
0,11
0,131
1,02 0,6815 0,834
26
Warunkowe wartości oczekiwane
Warunkową wartością oczekiwaną zmiennej losowej Y przy
warunku, że zmienna X = xi nazywamy wyrażenie:
E (Y X xi ) y j
j
pij
pi .
Analogicznie definiujemy warunkową wartość oczekiwaną
zmiennej X:
E ( X Y y j ) xi
i
pij
p. j
27
Obliczanie warunkowych wartości oczekiwanych
Obliczmy warunkowe wartości oczekiwane zmiennej losowej
Y w naszym przykładzie. Kolejno otrzymujemy:
E(Y/X=1)=10,46+20,23+30,31=1,85
E(Y/X=2)=10,29+20,17+30,54=2,25
E(Y/X=3)=10,21+20,18+30,61=2,40
E(Y/X=4)=10,17+20,40+30,43=2,26
28
Funkcja regresji I rodzaju
Warunkowe wartości oczekiwane zmiennej Y zależą od wartości
zmiennej X, są pewną funkcją tej zmiennej. Funkcję tę możemy
zapisać następująco:
E (Y X xi ) m( x )
Tak określoną funkcję nazywamy funkcją regresji I rodzaju
zmiennej losowej Y względem zmiennej losowej X.
W naszym przykładzie funkcję tę można zapisać następująco:
1,85 dla x 1
2,25 dla x 2
m( x )
2,40 dla x 3
2,26 dla x 4
29
Wykres funkcji regresji I rodzaju
2.50
2.00
1.50
1.00
0.50
0.00
0
1
2
3
4
30
Funkcja regresji II rodzaju
W praktyce najwygodniej jest zastąpić nieliniowe krzywe
regresji I rodzaju funkcjami liniowymi, jeżeli tylko takie
przybliżenie jest wystarczające.
Spośród wszystkich możliwych prostych wybieramy taką, dla
której średnie odchylenie kwadratowe wartości danej
zmiennej od tej prostej jest minimalne:
E {[Y ( a bX )] 2 } min
31
Funkcja regresji II rodzaju (c.d.)
Rozwiązując ten warunek otrzymujemy:
CXY
b 2
a EY bEX
D X
Parametr b nazywamy współczynnikiem regresji liniowej
zmiennej Y względem X.
W naszym przykładzie otrzymujemy:
0,11
b
0,1078 oraz
1,02
a 2,25 0,1078 2,8 1,9481
Tym samym prosta regresji ma postać:
~
Y 0,1078 X 1,9481
32
Wykres funkcji regresji II rodzaju
2.5
2
1.5
1
Ir
II r
0.5
0
0
1
2
3
4
33