11/27/2016
Biostatystyka , 2016/2017
dla Fizyki Medycznej , studia magisterskie
•
•
•
•
•
estymacja
estymacja średniej punktowa
przedział ufności średniej rozkładu normalnego
estymacja punktowa i przedziałowa wariancji rozkładu normalnego
estymacja parametrów rozkładu dwumianowego i Poissona
Estymacja to wnioskowanie statystyczne koncentrujące się wokół oszacowania wartości
specyficznych parametrów populacji.
Estymacja punktowa:
jak w oparciu o posiadane dane oszacować wartość określonego parametru nieznanej populacji.
Estymacja przedziałowa:
jak w oparciu o posiadane dane oszacować przedział wartości określonego parametru nieznanej
populacji.
1
11/27/2016
Wagi noworodków kolejno urodzonych
w jednym ze szpitali w Bostonie
(waga w uncjach: 100 oz= 2835 g)
Zaznaczone są trzy próby o
rozmiarze n=10.
Każda próba daje 10 wyników dla
masy noworodków.
Różne próby mogą prowadzić do
różnych wartości dla średniego
ciężaru noworodków.
xA
1 10 A
xi
10 i 1
Zatem próbkowanie populacji
(wybór próby) jest zmienną
losową.
Przy założeniu iż losowanie
próby było niezależne,
prawdopodobieństwo
wylosowania dowolnego
noworodka jest identyczne.
2
11/27/2016
Rozkład wartości zmiennej X (podkreślenie jest
oznaczeniem dla tradycyjnie używanej kreski nad zmienną)
Jakie własności posiada zmienna
losowa X opisująca średnią z
wylosowanych prób?
Jak własności zmiennej X wykorzystać
do oszacowania średniego ciężaru
noworodków w badanej populacji?
A może w oszacowaniu wykorzystać
inne znane parametry opisujące
własności skończonego zestawu danych,
takie jak, na przykład,
mediana czy
wartość średnia najmniejszej i
największej wagi w próbie?
Wyniki uzyskane z obliczenia wartości
różnych prób dla różnych statystyk
(a) wartości średniej z próby X (a)
(b) mediany z próby ,
(c) średniej z wartości max i min z próby
3
11/27/2016
Niech estymator ˆ to przepis (statystyka) na obliczenie wartości
dla wielkości charakteryzującej badaną populację w oparciu o dane z
próby.
Estymator ˆ jest nazywanym nieobciążonym estymatorem
niezależnie od rozkładu populacji zachodzi
jeśli
E (ˆ)
Wartość średnia z próby X , mediana z próby, średnia z najmniejszej i
największej wartości z próby, są nieobciążonymi estymatorami
wartości średniej w populacji , czyli
E(X )= , E(mediana) = , E(1/2(min{ }+ max{} )= .
Jeśli rozkład w populacji jest normalny , to wartość średnia z próby X jest
estymatorem o minimalnej wariancji.
Ilustracja dla pojęcia SEM , inaczej SE
Wyniki rozkładu zmiennej losowej
gdy próba składa się z :
(a) n=1
(b) n=10
(c) n=30
elementów.
X
SEM SE
n
estymujemy
s
n
4
11/27/2016
Przypominajka:
Niech zmienne losowe X1,..Xn są wzajemnie niezależne i mają
rozkłady normalne o wartościach
2
oczekiwanych : E ( X i ) i i wariancjach E ( X i )
. i
Wówczas dowolna kombinacja liniowa L tych zmiennych jest zmienną o rozkładzie normalnym
N ( ci i , ci2 i2 )
i
i
Wniosek:
Dla zmiennej losowej X , jeśli losowe próby pochodzą z populacji2 o wartością
średnią oraz wariancją 2 , to X ma rozkład normalny N ( , )
n
Twierdzenie CTG:
Niech X1, X2, ….., Xn to losowe próby pobrane z populacji o nieznanym (dowolnym)
rozkładzie opisywanym wartością średnią oraz wariancją 2.
Wówczas dla dużych wartości n mamy
X ma w przybliżeniu rozkład N(, 2/n)
Ilustracja centralnego twierdzenia
granicznego
Wyniki rozkładu zmiennej losowej
gdy próba składa się z :
(a) n=1
(b) n=5
(c) n=10
elementów.
X
Zauważmy, że (a) opisuje rozkład wag w
populacji. Jest niesymetryczny
(lewoskośny) a więc jest inny niż normalny.
Przy zwiększaniu n rozkład wartości
średnich staje się dzwonowaty
5
11/27/2016
Ile jest ? Czy 116.9 czy 132.80?
Jeżeli X przektszałcimy na zmienną losową standardową Z, czyli
Z
X
/ n
to Z jest zmienną o standardowym rozkładzie normalnym N(0,1).
Zatem 95% wyników Z uzyskanych z prób losowych o rozmiarze n
będzie miało wartości pomiędzy -1.96 i +1.96 .
Te wartości odpowiadają 2.5 oraz 97.5 percentylom standardowego
rozkładu normalnego.
Oznacza to, że 95% prób losowych X leży w przedziale
( - 1.96 / √𝒏 ,
+1.96 / √𝒏 )
6
11/27/2016
d=1
d=2
d=5
d=10
d=inf
pdf(’t’, x, d)
Jeśli X1, X2, … Xn to niezależne zmienne losowe
o rozkładzie N(,2) to statystyka:
t
X
s/ n
ma rozkład t-Studenta.
cdf(’t’, x, d)
Oznaczenie : t n-1
d=1
d=2
d=5
d=10
d=inf
• Dystrybycja td dla każdego d jest symetryczna
• Dystrybycja td ma wolno opadające ogony
https://pl.wikipedia.org/wiki/Rozk%C5%82ad_Studenta
Można pokazać, że dla dowolnego
> 0.05 dystrybucja
t-Studenta t d, 1- przyjmuje wartości
większe niż rozkład normalny.
t d ,1 z1
0.05
7
11/27/2016
100%(1- ) statystyk t wpada
pomiędzy dolny /2 i górny 1- /2
percentyl dystrybucji tn-1, czyli
P(t n 1, / 2 t t n 1,1 / 2 ) 1
100%(1- ) przedział ufności ( confidence interval) dla średniej rozkładu normalnego o
nieznanej wariancji dany jest wzorem:
s
s
, X t n 1,1 / 2
X t n 1,1 / 2
n
n
8
11/27/2016
CI to zmienna losowa .
100%(1- )CI to rodzina losowych
przedziałów o własności , że
100%(1- ) spośród nich zawiera
rzeczywistą wartość parametru .
=112 wartość obliczona
z całej populacji
Szerokość interwału ufności
2 * t n 1,1 / 2
s
n
n rośnie, to Δ maleje
s rośnie, to Δ rosnie
rośnie, to Δ maleje
s
n t n 1,1 / 2
2
Oszacowanie
wielkości próby dla
osiągnięcia CI
o określonej
szerokości Δ i
ufności
n z1 / 2
2
9
11/27/2016
Niech dany będzie przedział ufności 95%CI odsetka dorosłych Amerykanów, którzy nie są aktywni fizycznie (0.23,0.27)
Mamy 95% ufność, że prawdziwy odsetek dorosłych Amerykanów, którzy nie są aktywni
fizycznie jest pomiędzy 23% i 27%
Mamy 95% ufność, że odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest
zawarty w przedziale (23%, 27%)
W oparciu o posiadane dane szacujemy, ze odsetek dorosłych Amerykanów, którzy nie są
aktywni fizycznie to 25%. Z ufnością 95% ta wartość może być tak mała jak 23% albo tak
duża jak 27%.
W oparciu o posiadane dane szacujemy, ze odsetek dorosłych Amerykanów, którzy nie są
aktywni fizycznie to 25% ( 95% CI: 23% - 27%).
Mamy 95% szansę, że odsetek dorosłych Amerykanów, którzy nie są aktywni fizycznie jest
zawarty pomiędzy 23% i 27%.
Rozkład zmiennej losowej PROBKOWANIA, czyli możliwych konstrukcji, wyborów
niezależnych prób o tym samym rozmiarze n z danej populacji. Zmienna losowa
przyjmuje wartości niezależnie obliczane dla każdej próby oddzielnie.
Co to jest rozkład próbkowania?
Dlaczego średnia z próby jest używana do estymowania średniej z populacji?
(1)Jeśli zmienną losową próbkowania reprezentuje średnia wartość z próby, to wartość oczekiwana
tej zmiennej jest średnią dla populacji niezależnie od rozkładu wartości w populacji.
(2) Ponadto, przy rozkładzie normalnym w populacji , ta zmienna losowa ma najmniejszą wariancję
spośród wszystkich możliwych innych zmiennych losowych próbkowania o własności (1).
Jaka jest różnica pomiędzy odchyleniem standardowym a błędem
standardowym?
Odchylenie standardowe charakteryzuje rozrzut wartości w populacji czy próbie, natomiast błąd
standardowy mierzy rozrzut wartości zmiennej losowej próbkowania reprezentowanej średnią z próby.
Co oznacza 95%CI średniej?
W zbiorze przedziałów 95%CI skonstruowanych dla różnych prób, 95% z nich będzie zawierało
wartość . 95%CI opisuje zmienną próbkowania, a nie .
W szczególności nie wolno uważać, że z prawdopodobieństwem 0.95 przedział zawiera .
Skąd konieczność wprowadzenia rozkładu t-Studenta
Jeżeli nie znamy wariancji w populacji to estymacja jej przez odchylenie standardowe z próby ma
rozkład t-Studenta.
Jaka jest różnica pomiędzy rozkładem normalnym a rozkładem t-Studenta?
Rozkład t-studenta to rodzina rozkładów indeksowana stopniem swobody. Oba są symetryczne
względem O, ale rozkłady t-Studenta mają „tłuste” ogony.
Jak rozumiesz centralne twierdzenie graniczne i jego znaczenie dla statystyki
CTG gwarantuje, że zmienna próbkowania realizowana przez średnią jest dobrze aproksymowana przez rozkład normalny N(,2/n).
10
11/27/2016
Estymacja punktowa dla średniej
populacji w oparciu o wynik z próby:
Estymacja przedziałowa przez (1-)%CI dla średniej
populacji o rozkładzie normalnym w oparciu o wynik
z próby jeżeli:
•
znamy wariancje populacji
• nie znamy wariancji populacji
Uwaga praktyczna:
jeśli n>30 to zamiast statystyki t
stosuje się statystykę z
Średnie odchylenie z próby?
sˆ 2
Średnia z próby to estymator
nieobciążony i z min. wariancją
s
X
n
( X z1 / 2
n
( X t n 1,1 / 2
, X z1 / 2
n
)
s
s
, X t n 1,1 / 2
)
n
n
Mamy ufność, że 95% przedziałów
tak skonstruowanych zawiera średnią
populacji
Wariancja z próby?
n
1
( xi x ) 2
n i 1
s2
1 n
( xi x ) 2
n 1 i 1
Przy n powtarzających się
próbach o rozmiarze n mamy :
średnie odchylenie z tych prób
nie jest nieobciążonym
estymatorem
wariancja z próby jest
nieobciążonym estymatorem
11
11/27/2016
przykład: pomiar SBP
pomiar ciśnienia skurczowego „arteriosondą” –przyrząd wykorzystujący efekt Dopplera do ustalenia ciśnienia krwi.
Nagranie interpretowało dwóch operatorów.
d (6 3 ... 2) / 10 0.2
s2
1 10
(di d ) 2 8.178
9 i 1
Przy założeniu, że rozkład różnic d jest normalny oszacowanie punktowe dla wariancji to 8.178
n2
n
Zmienna
G X i2
gdzie
X i z N (0,1)
ma rozkład
i 1
n2 ( x)
MATLAB:
n=1:9;
x=5;
y=chi2pdf(x,n);
n2
n=1
n=2
n=3
n=4
n=6
n=9
x n / 21e x / 2
2 n / 2 (n / 2)
1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000
0.0146 0.0410 0.0732 0.1026 0.1220 0.1283 0.1220
8.0000 9.0000
0.1069 0.0872
http://en.wikipedia.org/wiki/Chi-squared_distribution
12
11/27/2016
u : P( n2 n2,u ) u
cdf (' chi' , n2,u , n) u
oznaczenie
Przykład: Znajdź górny i dolny 2.5-percentyl chi-kwadrat rozkładu dla n=10.
icdf to funkcja
odwrotna do
cdf
icdf('chi', 0.025,10)
icdf('chi', 0.975,10)
102 ,0.025 =3.2470
102 ,0.975 =20.4832
P(3.24 102 20.48) 0.95
=3.2470
=20.4832
13
11/27/2016
2 2
2 2
P
n 1, / 2 s 2
n 1,1 / 2 1
n
1
n
1
Do daje
Przykład:
Pomiar SBP arteriosondą :
95%CI dla wariancji to
( 3.87, 27.26),
95%CI dla odchylenia
standardowego jest:
( 1.97, 5.22).
(n 1) s 2 (n 1) s 2
2
, 2
n 1,1 / 2 n 1, / 2
Oszacowanie punktowe dla
odchylenia daje s=2.8597
Jeśli próba jest duża, n>30, to przedział ufności staje się symetryczny względem
oszacowania punktowego. Zachodzi bowiem
P s z
s
2 s z
2n
s
1
2n
Ocena powtarzalności pomiarów
Rekrutujemy 15 ochotników, i w odstępie tygodnia pobieramy krew do analizy.
Badamy: d
gdzie
i
xi ,1 xi , 2
xi ,1 , xi , 2
to pomiar pierwszy i drugi danego ochotnika.
Wyszło d=0 przy s=0.25.
A w literaturze jest , że =0.20.
Czy nasze pomiary są powtarzalne?
Ponieważ:
Zatem:
Z 95 % ufnością mamy, iż wyniki
naszego laboratorium są powtarzalne
w odniesieniu do literaturowych
To:
14
11/27/2016
Przykład : czerniak złośliwy wśród kobiet w
wieku 45-54 lat w USA.
Typowa
1 z prawd p jest czerniak
zmienna
Xi
losowa
0 z prawd 1 - p nie ma czerniaka
binarna:
Zmienna losowa
reprezentująca ilość
sukcesów wśród n
takich zmiennych
X
X
i 1,.., n
i
Dana jest próbka 5000 kobiet w w/w wieku.
Czerniaka stwierdzono u 28.
Jak ocenić występowanie (odsetek kobiet z
czerniakiem) tej choroby w całej populacji?
E ( X ) np
Var ( X ) npq
Tw:
Jeśli X jest zmienna losowa o rozkładzie dwumianowym B(n,p), to nieobciążonym
estymatorem p jest
Błąd standardowy tej
pˆ X / n
estymacji to ( p
ˆ)
pˆ qˆ / n
Oszacowanie występowania czerniaka :
pˆ 28 / 5000 0.0056
( pˆ ) 0.0056 * 0.9944 / 5000 0.0011
Estymacja największej wiarygodności ( MLE) to najczęściej stosowana
metoda szacowania parametrów modelu.
Metoda ta wybiera zbiór wartości dla parametrów rozkładu tak, by tak
zwana funkcja wiarygodności osiągała wartości maksymalne.
Intuicyjnie metoda największej wiarygodności ustala tak parametr
modelu, by maksymalizować zgodność uzyskanych z próby danych z
modelem.
15
https://www.youtube.com/watch?v=I_dhPETvll8
11/27/2016
Warunek na
ekstremum L
L: funkcja
wiarygod
ności
Definicja
Niech funkcja prawdopodobieństwa zmiennej dyskretnej X jest opisana jako funkcja k parametrów:
p ( p1 , p2 ,..... pk )
Niech
x ( x1 , x2 ,.....xn ) to próba n niezależnych obserwacji zmiennej X.
Wiarygodnością tej próby przy zadanym p, oznaczaną jako L(x|p) , jest prawdopodobieństwo
uzyskania wyników tej próby przy założeniu określonych wartości parametrów, czyli:
n
L(x | p) P( x1 | p) P( x2 | p)....P( xn | p) P( xi | p)
i 1
Wiarygodność próby oceny zachorowalności
na czerniaka:
500
L(x | p) P( xi | p) p 28 (1 p) 500 28
i 1
16
11/27/2016
Definicja
Niech funkcja gęstości prawdopodobieństwa zmiennej ciągłej X jest opisana funkcją o k parametrach:
p ( p1 , p2 ,..... pk )
Niech
x ( x1 , x2 ,.....xn )
to próba n niezależnych obserwacji zmiennej X.
Wiarygodność tej próby przy zadanym p, oznaczana L(x|p) , to prawdopodobieństwo uzyskania
wartości próby przy założeniu określonych wartości parametrów p ( p1 , p2 ,..... pk )
czyli:
n
L(x | p) f ( x1 | p) f ( x2 | p).... f ( xn | p) f ( xi | p)
i 1
Jaka jest wiarygodność danej próby n-elementowej reprezentującej zmienną X o
rozkładzie normalnym N(,)?
n
L(x | ( , )) f ( xi | ( , ))
i 1
Definicja
Estymatorem największej wiarygodności (MLE) dla
nazywamy takie wartości tych parametrów
1
1
exp{ 2
(2 ) n / 2 n
2
n
(x )
i 1
2
i
p ( p1 , p2 ,..... pk )
p ( p1, MLE , p2, MLE ,..... pk , MLE )
które maksymalizują wiarygodność.
Użyteczność:
Dla szerokiej klasy rozkładów, gdy rozmiar próby jest dostatecznie duży, to MLE jest nieobciążonym
estymatorem punktowym i ma najmniejszą wariancję.
17
11/27/2016
Przykład: Rak piersi wśród kobiet 50-54 letnich, których matki miały raka piersi. Mamy próbę losową 10000 kobiet o w/w
wieku, 400 z nich miało lub ma raka piersi.
Najlepsze oszacowanie punktowe dla p występowania raka w populacji to p^ = 400/10000=0.040
Jak oszacować przedziałowo parametr p występowanie raka piersi wśród kobiet 50-54 letnich?
95%CI dla raka piersi wśród kobiet 50-54-letnich:
pˆ 0.040
0.05
z1 / 2 1.96
n 10000
(0.040 1.96 0.04 * 0.96 / 10000 ,0.040 1.96 0.04 * 0.96 / 10000 )
(0.036,0.044)
Jeśli wiadomo, że odsetek występowania raka piersi wśród wszystkich kobiet w tym wieku jest
2%, to możemy ufać, że w grupie kobiet, których matki miały raka piersi, występowanie raka
piersi jest wyższe niż średnia dla tej grupy wiekowej.
Podsumowanie ( Metoda Walda)
Dla B(n,p) takiego, że npq ≥ 5
mamy
pˆ z1 / 2
pˆ (1 pˆ )
n
Przypadek npq < 5
Gdzie x= obserwacja
18
11/27/2016
Szczury były karmione wysokocukrowa dietą. U dwóch spośród dwudziestu pojawił się rak krwi.
Podać estymacje przedziałową dla tego wyniku.
pˆ 2 / 20 0.1
0.05
n 20
npq 1.8 5
Trzeba znaleźć p1 i p2 takie , że
P( X 2 | p p1 ) 0.025
P( X 2 | p p2 ) 0.025
MATLAB:
p1: 1- cdf('bino',1,20,0.01:0.001:0.015)
p2 :
p1=0.012
0.01
0.011 0.012 0.013 0.014
0.0169 0.0202 0.0237 0.0275 0.0315
cdf('bino',2,20,0.3:0.005:0.33)
0.3
0.0355
0.305
0.0321
0.31
0.315
0.0289 0.0261
0.015
0.0357
0.32
0.0235
0.325
0.0211
p2=0.32
95%CI jest (0.012, 0.32)
Definicja
Wprowadzamy jednostkę osobo-rok jako jednostkę czasu obserwacji 1 osoby.
Przykład:
W Woburn u 12 dzieci została zdiagnozowana białaczka w okresie od 1.o1.1970 do 31.12.1979.
Zakładamy, że populacja dzieci w Woburn to 12 000, oraz że zachorowalność na białaczkę w
populacji ogólnej to 5 przypadków na 100 000 osobo-lat.
Jak wygląda estymacja zachorowalności dzieci na białaczkę w Woburn?
Zatem, 12 000 dzieci było obserwowanych przez 10 lat, a więc mamy skumulowanych 120 000
osobo-lat.
Twierdzenie
Niech ilość zdarzeń X w okresie T osobo-lat ma rozkład Poissona z µ = λT.
Nieobciążony estymator λ jest dany jako λ=X/T, gdzie X oznacza ilość
zaobserwowanych zdarzeń w czasie T osobo-lat.
19
11/27/2016
Przykład: białaczki u dzieci w Woburn.
Wyznaczyć 95%CI dla współczynnika zachorowalności dzieci na białaczkę na 100000 osobo-lat (λ) .
20