Wykład 3: Prawdopodobieństwopodstawowe pojęcia i modele
Często
modelujemy zmienność używając
rachunku prawdopodobieństwa.
„Prawdopodobieństwo
opadów deszczu
wynosi 80%.” (zinterpretuj)
„Prawdopodobieństwo
urodzenia
dziewczynki wynosi 0,49.” (zinterpretuj)
Prawdopodobieństwo dotyczy
zdarzeń=zbiorów
A, B, C – zdarzenia (tzw. losowe)
P(A) – prawdopodobieństwo zdarzenia E
0≤P(A)≤1
S – przestrzeń probabilistyczna (zbiór wszystkich
możliwych wyników eksperymentu-zdarzeń
elementarnych)
P(S)=
(?)
1
Działania na zbiorach
i własności prawdopodobieństwa
A B
A B
A B P(A B) P(A) P(B)
Diagramy Venna
B
A
A\ B
B\ A
A B
A B
2
Uwagi:
W praktyce prawdopodobieństwo często ustalamy
jako częstość/proporcję grupy posiadającą
interesującą nas własność.
Przykład: Na 45-ciu studentów, 15-tu dostało 5.0 z
egzaminu. Jakie jest prawdopodobieństwo tego, że
losując studenta z tej grupy trafimy na takiego, który
dostał 5.0 z egzaminu?
Prawdopodobieństwo klasyczne
Założenie – wszystkie możliwe (elementarne) wyniki
eksperymentu są jednakowo prawdopodobne (tu:
prawdopodobieństwo wylosowania każdego studenta
jest takie samo).
N – liczba możliwych wyników eksperymentu (tu N=
?)
x – liczba tych wyników , które spełniają/sprzyjają
zdarzeniu E
(tu E= „Dostał/a 5.0 z egzaminu”, x=
?)
P(E)=x/N
(tu P(E)=
?)
3
Interpretacja częstościowa
prawdopodobieństwa
Gdy liczba niezależnych powtórzeń
eksperymentu dąży do nieskończoności, to
względna częstość występowania zdarzenia E
dąży do P(E). Jest to tzw. prawo wielkich liczb.
Przykłady zdarzeń
E = „wyrzucenie orła w rzucie symetryczną
monetą”: P(E) =
E = „wyrzucenie 4 w rzucie symetryczną
kostką”: P(E) =
E = „otrzymam 1 lub 6 w rzucie kostką”:
P(E) =
4
Przykład: Ania i Basia rzucają monetą.
E = obie dostaną orła. P(E) =
Uzasadnienie:
A
dostanie O i B dostanie O
A dostanie O i B dostanie R
A dostanie R i B dostanie O
A dostanie R i B dostanie R
Te cztery zdarzenia są jednakowo prawdopodobne
(P(E)=P(OO)=P(OR)=P(RO)=P(RR)=
?)
Prawdopodobieństwo, że dostaniemy dokładnie
jednego orła (Ania albo Basia) =
Przykład: Krzyżówka dwóch heterozygot
Genotyp obu rodziców : Aa
(?)
Dzieci: P(AA) =
Pr(Aa albo aA) =
(?)
P(aa) =
(?)
Jeżeli liczba dzieci będzie bardzo duża, to
frakcja heterozygot będzie bliska
(?)
Przypomnienie: frakcja w próbie aproksymuje
frakcję w populacji.
5
Niezależność
Definicja: Zdarzenia A i B są niezależne, gdy
P ( A B ) P ( A) P ( B )
Przykład: Dwa rzuty monetą.
A=otrzymano orła w pierwszym rzucie
B=otrzymano orła w drugim rzucie
P(A i B) =...
Zdarzenie
0.5
0.5
0.5
O
P-stwo
OO
O
0.5
R
OR
0.5
O
RO
0.5
O
RR
R
6
Prawdopodobieństwo warunkowe
P(A|B) – prawdopodobieństwo zajścia zdarzenia A
pod warunkiem, że zajdzie zdarzenie B.
Definicja matematyczna:
P(A B)
P(B)
P( A B) P(B) P( A | B)
P(A | B)
Przykład:
Przypuśćmy, że 2% populacji zarażone jest wirusem
HIV, a test do wykrywania obecności wirusa HIV ma
następujące własności:
Jeżeli
się ma HIV, to prawdopodobieństwo jego
wykrycia wynosi 0.997 (prawdziwy dodatni wynik
testu, czułość).
Gdy się nie ma HIV, to prawdopodobieństwo
właściwej diagnozy wynosi 0.985 (prawdziwy
ujemny wynik testu, specyficzność).
7
Zdarzenia (oznaczenia):
A – wybrany losowo człowiek jest chory
B – test wykazuje obecność wirusa
P(A)=
P(B|A)=
A’- wybrany losowo człowiek jest zdrowy
B’-test nie wykazuje obecności wirusa
P(B’|A’)=
Zdarzenie
Test +
Prawdziwy +
Test -
Fałszywy -
Test +
Fałszywy +
P-stwo
HIV +
HIV –
Test -
Prawdziwy -
8
Jakie
jest p-stwo, że u losowo wybranej
osoby test wykaże obecność wirusa ?
Jakie jest p-stwo, że osoba, u której test wskazał
obecność wirusa, jest faktycznie zakażona?
9
Wzór Bayesa
P( A | B)
P ( B | A) P ( A)
P(B)
Wpływ rozkładu a priori:
Załóżmy teraz, że w pewnej populacji:
30% ludzi ma HIV,
test do wykrywania HIV ma czułość 99.7%
i specyficzność 98.5% (jak przedtem).
Jakie jest prawdopodobieństwo, że osoba z
dodatnim wynikiem testu ma HIV?
10
Zdarzenie
Test +
Prawdziwy +
Test -
Fałszywy -
Test +
Fałszywy +
P-stwo
HIV +
HIV –
Test -
Prawdziwy -
P-stwo, że osoba z dodatnim wynikiem testu
jest (faktycznie) chora wynosi:
P ( HIV | test )
P ( HIV oraz test )
P ( test )
11
Zmienna (tzw.) losowa:
Wartość zależna od wyniku eksperymentu.
Przykład: Liczba orłów uzyskanych w
jednym rzucie monetą.
Zmienna losowa dyskretna
Zbiór wartości, które może przyjąć zmienna losowa
dyskretna jest skończony lub przeliczalny. Możliwe
wartości będziemy oznaczali x1,x2, …
Rozkład zmiennej dyskretnej X określamy podając
prawdopodobieństwa pi=P(X=xi).
Np. w rzucie symetryczną kostką liczba oczek X
ma rozkład P(X=i)=
, i=1,...6.
12
Ciągła zmienna losowa
Prawdopodobieństwo przyjęcia każdej
ustalonej wartości wynosi zero, np.
P(X=3.14159265358979323)=0
Zmienne losowe ciągłe rozważane na tym
kursie będą zawsze opisane funkcją
gęstości f(x).
Dystrybuanta zmiennej X:
Dla liczby
x
definiujemy
FX ( x) P ( X x)
Własności: FX(x) jest funkcją niemalejącą,
ciągłą z prawej strony, oraz
lim x F ( x)
lim x F ( x)
13
Funkcje gęstość rozkładu
prawdopodobieństwa
Heurystyka: histogram z dużą liczbą klas:
Jeżeli mamy liczbowe dane ciągłe, to
więcej klas + dużo danych = bardziej
regularny histogram
14
Gęstość rozkładu prawdopodobieństwa
Gdy rozmiar próby dąży do nieskończoności a
szerokość klas do zera, histogram zbiega do
wykresu gęstości rozkładu zmiennej.
Podobnie jak dla histogramu, pole pod
wykresem gęstości (całka) jest frakcją
osobników wpadających do danego przedziału
(czyli prawdopodobieństwem tego, że losowo
wybrany osobnik jest w danym przedziale).
15
Gęstość (funkcja gęstości)
Gęstość, f, rozkładu prawdopodobieństwa to każda
funkcja, która spełnia następujące dwa warunki:
f(x)
0 dla wszystkich x.
Całkowite
pole pod wykresem f(x) wynosi 1:
f ( x)dx 1
Przykłady rozkładów ciągłych
Rozkład jednostajny na odcinku [a,b]
f(x)=
Rozkład wykładniczy z parametrem λ>0
f(x)=
,
Rozkład normalny
f(x)=
Rozkład zaproponowany przez salę:
f(x)=
16
Rozkłady (ciągłe): podstawowa zależność
Rozkłady (absolutnie) ciągłe dane są przez:
b
P( X (a, b)) f ( x)dx
a
Niech Y ma rozkład jednostajny na odcinku [0,1].
P(Y>0.3)=
P(Y<0.3)=
P(Y=0.3)=
?
?
?
Narysuj dystrybuantę dyskretnej zmiennej losowej
X takiej, że P(X=0)=1/3 oraz P(X=1)=2/3.
17
Narysuj dystrybuantę rozkładu jednostajnego na
odcinku [a,b].
Wartość oczekiwana i wariancja (wzory).
Zmienna losowa dyskretna
x :=E(X)= xi P(X= xi)=xipi
• Var(X)= (xi- x)2 P(X= xi) = xi2 pi - x2
•
Przykład 1 (rzut monetą, X=1, gdy orzeł, X=0,
gdy reszka)
E(X)=
Var(X)=
Przykład 2 (X=wynik rzutu kostką)
E(X)=
Var(X)=
18
Rozkład dwupunktowy z parametrem 0p1
P(Y=1)=p, P(Y=0)=1-p.
Oblicz:
EY=
VarY=
Wartość oczekiwana i wariancja, cd.
Zmienna losowa ciągła
EX
x f(x) dx
2
Var(X) (x - EX) f(x) dx
-
2
2
x
f(x)dx
(EX)
19
Wartość oczekiwana jest środkiem ciężkości figury określonej
przez krzywą gęstości.
Przykład: rozkład jednostajny na [a,b].
20
Przykład: rozkład wykładniczy z
paramerem λ>0:
Własności wartości oczekiwanej i wariancji
E(aX+b)=aEX+b
Var(aX+b)=a2Var(X)
21
Dla dwóch zmiennych losowych X i Y:
E(X+Y)=EX+EY
E(X-Y)=EX-EY
E(aX+bY+c)=
Niezależność zmiennych losowych:
Jeżeli zmienne X i Y są niezależne, to
P ( X A, Y B ) P ( X A) P (Y B )
Przykład1: Wybieramy (losowo) liczbę
dwucyfrową; X:=liczba dziesiątek, Y:=liczba
jedności, A={1, 2}, B={3, 4, 5}.
22
Niezależność zmiennych losowych, cd.
Przykład 2: Wybieramy (losowo) liczbę z
zakresu 12,...,101; X:=cyfra dziesiątek,
Y:=cyfra jedności, A={1, 2}, B={3, 4, 5}.
Przykład 3: Liczby oczek, X, Y, w dwóch
kolejnych rzutach kostką.
Jeżeli X i Y są niezależne, to
E(XY)=E(X)·E(Y)
i
Var(X+Y)=Var(X)+Var(Y).
23
Ćwiczenia: X i Y niezależne, to
Var(X-Y)=
Var(X+X)=
Schemat Bernoulliego i rozkład dwumianowy
Anita, Beata i Celina rzucają monetą i uzyskują łączną liczbę
orłów Y. Podaj rozkład zmiennej Y
A
O
O
O
O
R
R
R
R
B
O
O
R
R
O
O
R
R
C
O
R
O
R
O
R
O
R
P-stwo
Zdarzenie P-stwo
3O (0R)
2O (1R)
1O (2R)
0O (3R)
24
Histogram rozkładu w populacji.
Populacja =”wszystkie” rzuty trzema monetami
Pr(Y=y)
Rozkład dwumianowy (n=3,p=0.5)
0,4
0,3
0,2
0,1
0
0
1
2
3
y
Schemat Bernoulliego:
n niezależnych powtórzeń tego samego
eksperymentu
dwa możliwe wyniki w każdej próbie - ``sukces’’ i
``porażka’’ (np. O i R, albo 1 i 0)
w każdej próbie p-stwo sukcesu wynosi p
Rozkład dwumianowy:
Y = łączna liczba sukcesów w schemacie
Bernoulliego
Przykłady: liczba orłów na 5 rzutów, liczba wyzdrowień wśród
10 pacjentów poddanych pewnej kuracji
25
Rozkład dwumianowy (wzór):
n y
P (Y y ) p (1 p) n y ,
y
n
n!
gdzie
,
y y!(n y )!
y 0,1,..., n
Niektóre własności symbolu Newtona
Liczba możliwych ciągów y sukcesów i n-y porażek
n
=
0
n
=
n
n
=
1
n
=
n
1
n
y
Ogólnie
n n
y n y
26
W przykładzie A, B, C mamy p=1/2;
3
0
3
1
3
2
3
3
P(Y 0)
P(Y 1)
P(Y 2)
P(Y 3)
Uwaga: Rozkład dwumianowy jest
symetryczny dla p=1/2.
Przykład: Efekt uboczny lekarstwa
20% ludzi dostaje nudności po zażyciu
pewnego lekarstwa
Lekarz przepisał lekarstwo czterem
nowym pacjentom
Y – liczba pacjentów w naszej próbie,
którzy dostali nudności
Podaj rozkład zmiennej Y
27
Rozwiązanie:
Dalsze pytania:
P(co najmniej dwóch dostanie nudności) =
P(co najwyżej jeden dostanie nudności) =
28
Parametry rozkładu dwumianowego:
EY
Var
= np
Y=np(1-p)
Przykład:
Jeden na ośmiu dorosłych mężczyzn ma
podniesiony poziom cholesterolu. Losowo
wybieramy 10 mężczyzn z populacji. Jakie
jest p-stwo, że (dokładnie) 2 spośród nich
ma podniesiony poziom cholesterolu ?
29
Jakie jest p-stwo, że co najmniej jeden z
nich ma podniesiony poziom cholesterolu?
Ilu średnio mężczyzn na dziesięciu ma
podwyższony poziom cholesterolu?
Rozkład normalny
Bardzo często używany do modelowania
symetrycznych rozkładów zmiennych
losowych ciągłych
Przykłady:
Błąd
pomiarowy
Wzrost, wydajność
Temperatura ciała
Zawartość różnych składników we krwi
30
Funkcja gęstości:
Y ~ N(,)
- wartość oczekiwana, - odchylenie
standardowe
1
f ( y)
e
2
( y )2
2 2
31
Standardowy rozkład normalny: N(0,1)
Parametry:
=0 ,=1
Do oznaczenia zmiennej losowej o
rozkładzie N(0,1) będziemy używali litery Z
Dystrybuanta rozkładu normalnego N(0,1):
Φ(z)=P(Z < z).
(?)
Φ(0)=
Tablica dystrybuanty Φ(z) (z „Introduction to
the Practice of Statistics”, Moore, McCabe)
32
Korzystanie z Tablic
P(Z < 0.95) =
P(Z <= 0.95) =
P(Z > 0.75) =
P(Z < - 1.5)=
P(1.12 < Z < 2.24)=
P(Z>1.96)=
Pożyteczne wzory:
Φ(-z) =
P(Z > z) =
P(z1 < Z < z2) =
Ćwiczenie: Pr(|Z| > 1.96) =
33
Dowolny rozkład normalny: N(, )
Załóżmy, że poziom cholesterolu w pewnej
populacji ma rozkład normalny o średniej
= 220 i odchyleniu std. = 40.
Y ma rozkład N(220, 40)
Jaka część populacji ma poziom
cholesterolu powyżej 240?
Standaryzacja:
Y
~ N(,)
(Y-)/ ma rozkład normalny!
Oznaczmy Z= (Y-)/.
Mamy:
EZ=
Var(Z)=
Zatem Z~ N(0,1)!
34
Przykład cd.
P (Y > 240)=... tj. P(Y>y), gdzie y=240.
Oznaczamy
z = (y-)/ = (240-220)/40 = 0.5.
P(Y > 240) = P(Z > 0.5)=
35
Jakie jest p-stwo, że u losowo wybranej osoby
cholesterol będzie pomiędzy 200 a 260?
y1 = 200; z1 = (200-220)/40 = -0.5;
y2 = 260; z2 = (260-220)/40 = 1.0;
P(200 < Y < 260) = P(-0.5 < Z < 1.0) =
Oblicz P(Y < 170)
36
Reguła 68%–95%–99.7% (reguła 3 )
Jeżeli zmienna X ma rozkład normalny, to
P(-<X<+)=
P(-2<X<+2)=
P(-3<X<+3)=
37
Kwantyle
W jakim punkcie y dystrybuanta osiąga zadaną
wartość p?
Przykłady:
Mediana to kwantyl rzędu 50%.
Trzeci kwartyl to kwantyl rzędu 75%.
Kwantyle rozkładu N(0,1)
z0.1=
z0.9=
38
Kwantyle Y~N(μ, σ)
yp= μ+σzp
Znajdź trzeci kwartyl rozkładu poziomu
cholesterolu.
Znajdź kwantyl rzędu 0.1 dla rozkładu
poziomu cholesterolu.
39
Ocena normalności
Znaczna część procedur statystycznych, które
poznamy w dalszej części kursu wymaga
założenia, że próba pochodzi z populacji o
rozkładzie normalnym. Założenie to można
sprawdzać to przez pewne proste (orientacyjne)
obliczenia lub rysując wykres kwantyl-kwantyl...
Reguła 3
Policzmy procent obserwacji, które znajdują się w
odległości 1s, 2s and 3s od y .
Przykład: poziomy serum CK
n = 36, y = 98.28 i s = 40.38.
26/36 = 72% obserwacji jest w przedziale y 1s
34/36 = 94% obserwacji jest w przedziale y 2s
36/36 = 100% obserwacji jest w przedziale y 3s
To w przybliżeniu odpowiada wartościom dla
rozkładu normalnego. OK.
40
Wykres kwantyl-kwantyl (QQ plot)
66
64
a
68
70
Data :61.0 62.5 63.0 64.0 64.5 65.0 66.5 67.0 68.0 68.5
70.5
62
-1
0
1
Quantiles of Standard Normal
41