Genetyka populacyjna
Wiesław Babik
wieslaw.babik@uj.edu.pl
tel. 12 663 5171
pokój. 2.2.5
konsultacje czwartek 15‐16
Informacje
slajdy z wykładów i inne pliki do ściągnięcia ze strony kursu:
www.eko.uj.edu.pl/molecol
5 wykładów 3 x 45 min
egzamin – test wyboru 20 pytań, 50% + 1 poprawnych odpowiedzi, może być przed sesją
w terminie wykładu;
11 pytań prostych, 9 trudniejszych
warunkiem przystąpienia
do egzaminu jest
zaliczenie konwersatorium
Informacje - konwersatoria
5 konwersatoriów 3 x 45 min, zaczynają się po zakończeniu wykładów, prawdopodobnie 12 listopada
na początku każdych zajęć test wyboru, 5 pytań = max 5 p., 10min., kto się spóźni traci czas/punkty
na każdych zajęciach można zdobyć max. 3 p. za aktywność
łącznie na każdych zajęciach można zdobyć max. 8 p.
łącznie na wszystkich zajęciach można zdobyć 40 p.
test zaliczeniowy – test wyboru 30 pytań = max. 30 p.
łącznie (zajęcia + test końcowy) można zdobyć 70 p.
zaliczenie od 30 p., nie na ocenę
nie ma poprawiania testów końcowych ani testu zaliczeniowego
Podręczniki
Podręczniki po polsku
Genetyka populacji
bada „zachowanie” genów i determinowanych genetycznie cech w populacjach organizmów
mechanizmy zmieniające skład genetyczny populacji
mutacje
rekombinacja
dobór naturalny
migracje
przypadek
modele upraszczają rzeczywistość i pozwalają na ilościowe przewidywania zmian genetycznych w populacjach – zrozumienie jak różne procesy wpływają na zmiany ewolucyjne
Zastosowania u człowieka
doradztwo genetyczne dla rodzin
identyfikacja genów odpowiedzialnych za choroby o złożonym podłożu (nowotwory, cukrzyca, schizofrenia...)
identyfikacja patogenów oraz ich dróg transmisji
interpretacja statystyczna materiału dowodowego w sądownictwie
identyfikacja sprawców przestępstw
identyfikacja szczątków ofiar
przypadki spornego rodzicielstwa
rekonstrukcja historii człowieka jako gatunku, np. migracje między populacjami ludzkimi
Zastosowania
zrozumienie procesu ewolucji organizmów, genów i genomów
doskonalenie zwierząt i roślin udomowionych
szybka ocena bioróżnorodności
programy hodowlane dla gatunków zagrożonych
zachowanie maksimum zmienności genetycznej wymierających gatunków
rekonstrukcja pokrewieństw między organizmami na wszystkich poziomach taksonomicznych
Powstanie i wczesny rozwój
powstała w latach 20 i 30tych XX w.: Fisher, Haldane i Wright
pozwoliła na syntezę teorii ewolucji Darwina i genetyki Mendla
Pojęcia
locus – miejsce na chromosomie gdzie znajduje się określony fragment DNA, np. dany gen, często używany zamiennie z gen
allel (wariant) – forma genu rozróżnialna od innych form tego samego genu, czasem używane też na określenie kopii genu –
wynika z kontekstu
• w populacji może występować wiele różnych alleli w danym locus
• diploidalny osobnik ma maksymalnie dwa różne allele
kopia genu – termin używany przy liczeniu genów, nie interesuje nas czy kopie genów są takie same czy różne, • diploidany osobnik ma dwie kopie każdego genu autosomalnego
• w populacji N diploidalnych osobników jest 2N kopii każdego genu autosomalnego
fenotyp – właściwość organizmu lub ich grupy
• kolor oczu, włosów, grupa krwi
genotyp – typ genetyczny w jednym lub więcej genów
• w locus A osobnik może być homozygotą A1A1 lub heterozygotą A1A2
Gen (locus) i allel
miejsce na chromosomie które zajmuje dany gen to locus
forma (wariant) genu która znajduje się w danym locus na konkretnym chromosomie to allel
w każdym locus dostajemy jeden allel (kopię genu) od każdego Allel A
z rodziców –
wyjątki to mitochondrialny DNA i chromosomy płci
te allele (kopie genu) mogą być
Gen (locus) na
chromosomy
grupę krwi ABO
homologiczne
takie same (homozygota) lub różne (heterozygota)
skład alleli w danym locus
to genotyp
Allel B
heterozygota AB – grupa krwi AB
Proste cechy fenotypowe
Dziedziczenie mendlowskie & dyskretne stany cech
=> cechę może warunkować jeden gen
Interpretacja zmienności fenotypowej jest wątpliwa
Cechy ilościowe
większość obserwowanych właściwości organizmów
rozkład zmienności ciągły i zbliżony do normalnego
wielkość miotu
masa ciała (g)
wielkości cech częściowo dziedziczne, a częściowo kształtowane przez środowisko => komponent genetyczny i środowiskowy zmienności
Frankham i in. 2010
Cechy ilościowe
rozkład cechy warunkowanej genetycznie będzie ciągły gdy:
wiele alleli w genie
cechę warunkuje wiele genów
na wielkość cechy wpływa środowisko
a b c d e f g
Cechy ilościowe
rozkład cechy warunkowanej genetycznie będzie ciągły gdy:
wiele alleli w genie
cechę warunkuje wiele genów
na wielkość cechy wpływa środowisko
geny dużych i małych efektów
specjalny aparat matematyczny i pojęciowy: odziedziczalność (h2), wariancja fenotypowa (VP), wariancja genetyczna (VG), korelacja rodzice‐potomstwo...
osobny wykład
Allozymy
alleliczne formy białek, prosta interpretacja genetyczna ekstrakt z tkanki rozdziela się w żelu w polu elektrycznym
stosuje się barwienie specyficzne dla danego białka
allele o różnej sekwencji aminokwasów mogą migrować w żelu z różną prędkością – różnice w ładunku elektrycznym
fot. M. Ratkiewicz
Allozymy
można badać u wszystkich organizmów
zazwyczaj bada się 10‐30 białek, u człowieka ponad 70, głównie rozpuszczalne enzymy
P ‐ proporcja loci polimorficznych (min. 2 allele) wśród wszystkich badanych
kryterium polimorfizmu (0.95, 0.99)
10 loci, z nich 3 zmienne P = 3/10 = 0.3
H – średnia heterozygotyczność – proporcja loci, które są
heterozygotyczne u osobnika uśredniona dla całej populacji
10 loci w tym 3 zmienne z proporcjami heterozygot: 0.4, 0.2, 0.1, reszta 0.0, H = (0.4 + 0.2 +0.1 + 0 + 0 + 0 + 0 + 0 + 0 + 0)/10 = 0.07 Allozymy
wykazują zmienność u większości gatunków
w pewnym stopniu poziom zmienności
jest powiązany z wielkością populacji
u człowieka zbadano 71 loci
P = 0.282, H = 0.067
duże zróżnicowanie
między grupami
i gatunkami w grupach
Allozymy
w populacjach znaczne zasoby zmienności
badania allozymów wykrywają jedynie część zmienności
(ok. 1/3 podstawień aminokwasów w białkach, przede wszystkim te zmieniające ładunek)
allozymy mogą stanowić nielosową próbę genów
trudności praktyczne w badaniach – wymagania świeżej tkanki, destrukcyjne pobieranie prób
potrzeba charakterystyki zmienności genetycznej na poziomie DNA
Zmienność na poziomie DNA
zmienność na poziomie DNA to JEST zmienność
genetyczna
wiele technik badania, tylko niektóre szerzej stosowane
analiza zmienności mikrosatelitów
sekwencjonowanie DNA i analiza polimorfizmów pojedynczych nukleotydów (SNP)
technika PCR (reakcja łańcuchowa polimerazy) pozwala uzyskać
dużą ilość określonego fragmentu DNA z minimalnej ilości materiału, amplifikacja
~ 106‐108 x
Frankham i in. 2010
Mikrosatelity
Krótkie sekwencje powtarzalne (motyw powtarzalny 2‐5 nukleotydów) rozrzucone po genomie
Liczne u eukariotów (u człowieka > milion loci)
Doskonałe markery genetyczne gdyż wykazują zazwyczaj wysoką zmienność – wiele alleli w populacji
Allele różnią się liczbą powtórzeń a więc i długością, potrafimy je rozróżniać
Namnażane techniką PCR, locus identyfikujemy przez unikatowe sekwencje flankujące (adres)
powtórzenie AT
wiele takich miejsc w genomie
TCATGTACGTTGATATATATATATATATGTCCTGATGTTA
unikatowe sekwencje flankujące
Mikrosatelity
kodominujące, prosty sposób dziedziczenia
wysoka zmienność – nawet kilkaset alleli na locus w populacji, zazwyczaj kilkanaście, kilkadziesiąt, na podstawie kilku‐kilkunastu loci możliwa identyfikacja osobników z praktycznie 100% pewnością
łatwa automatyzacja
można namnażać kilka‐kilkanaście loci w reakcji multiplex
łatwy sposób wyznaczania pokrewieństwa między osobnikami
dużo narzędzi do opracowywania i analizy statystycznej
Zmienność sekwencji DNA
sekwencjonowanie daje dostęp do dowolnej części genomu
analizując zmienność DNA w populacji porównujemy między osobnikami te same (homologiczne) pozycje nukleotydowe – wyrównanie (alignment) sekwencji
dobre wyrównanie
sekw. homologiczne
złe wyrównanie
sekw. homologiczne
sekwencje niehomologiczne
pozycja nukleotydowa
Zmienność sekwencji DNA - przykład
Kreitman (1983): sekwencja ok. 2400 par zasad (pz, bp) 11 kopii genu dehydrogenazy alkoholowej (Adh) u Drosophila melanogaster
Frankham i in. 2010
•
•
•
•
liczba miejsc zmiennych czyli polimorficznych (S) = 43 (1.8%)
11 kopii genów, ale 9 różnych alleli
więcej zmienności w intronach
tylko jedna różnica aminokwasowa – dwa allele odróżnialne techniką
elektroforezy allozymów => tylko jedno podstawienie niesynonimowe, 13 podstawień synonimowych w egzonach
Zmienność sekwencji DNA - przykład
Różnorodność nukleotydów () – proporcja pozycji nukleotydowych różniących się między parą sekwencji losowo wybranych z populacji – czyli średnia dla wszystkich możliwych porównań; heterozygotyczność na poziomie nukleotydów
i j
n
ij
n
2
1
n
i 1 j i 1
ij
nn 1
2
ij proporcja różnych pozycji nukleotydowych w porównaniu i z j
S
N
•S ‐ liczba miejsc zmiennych
•N‐ długość sekwencji
3
4
5
6
7
2
0,13
3
0,59
0,55
4
0,67
0,63
0,25
5
0,80
0,84
0,55
0,46
6
0,80
0,67
0,38
0,46
0,59
7
0,84
0,71
0,50
0,59
0,63
0,21
8, 9, 10
1,13
1,10
0,88
0,97
0,59
0,59
0,38
11
1,12
1,18
0,97
1,05
0,84
0,67
0,46
Proporcja miejsc zmiennych pS
pS
2
= 0.0065= 0.65%
pS = 0.018 = 1.18%
8, 9, 10
0,42
Zakres zmienności DNA
porównuje się zmienność która wydaje się nie mieć
wyraźnego znaczenia funkcjonalnego – zmienność
synonimowa („cicha”) –nie wywołująca zmian sekwencji aminokwasów
Frankham i in. 2010
szeroki zakres zmienności
mniejsze organizmy, o większych populacjach mają więcej zmienności DNA
Polimorfizm Pojedynczych Nukleotydów (Punktowy)
SNP – ang. Single Nucleotide Polymorphism
Pozycje w genomie, które są polimorficzne – w danej pozycji w populacji może występować jeden z dwu (bardzo rzadko trzech lub czterech) nukleotydów => SNP ma zazwyczaj dwa warianty (allele) – locus bialleliczny
SNP identyfikuje się przez sekwencjonowanie genomów lub ich fragmentów u wielu osobników
Gdy już zidentyfikujemy SNP istnieją wydajne metody genotypowania
Polimorfizm Pojedynczych Nukleotydów (Punktowy)
SNP – ang. Single Nucleotide Polymorphism
• W genomie człowieka odpowiadają za >90% obserwowanej zmienności sekwencji (liczba zmian), ok. 7 – 10 mln SNP z częstością rzadszego allelu (MAF) > 5%
• Każdy(a) z nas ma ok. 3.2 mln SNP, z których większość
występuje też u innych ludzi
• Mogą występować w rejonach kodujących i nie kodujących
• Wiele z nich nie ma wpływu na zdrowie ludzi, ale
• Istnieją SNP, które decydują o wystąpieniu pewnych chorób czy predyspozycji
• Wiele metod badawczych w tym mikromacierze pozwalające na jednorazowe genotypowanie nawet milionów SNP
Zmienność i transmisja różnych części
genomu człowieka
Geny na
Właściwość
Autosomach
Zmienność
wysoka
średnia
niska
bardzo wysoka
0.0008
0.0004
0.0002
0.004
słaby
słaby
silny
silny
Ne
3Ne/4
Ne/4
Ne/4
niskie
niskie
średnie
bardzo wysokie
1.1
0.8
0
0
Przepływ genów ♂
50%
33%
100%
0%
Przepływ genów ♀
50%
67%
0%
100%
Dryf genetyczny
Efektywna wielkość
populacji
Tempo mutacji
Rekombinacja (cM/Mb)
Chromosomie Chromosomie X
Y
mtDNA
Pojęcia
częstość genotypu – proporcja danego genotypu wśród badanych osobników (w badanej populacji)
dwa allele A1 i A2, gatunek diploidalny, gen autosomalny
P = NA1A1/N, H = NA1A2/N, R = NA2A2/N
częstość allelu – proporcja danego allelu wśród wszystkich badanych kopii genów
dwa allele A1 i A2, gatunek diploidalny, gen autosomalny
częstość homozygot plus połowa częstości heterozygot (mają
tylko jeden allel):
p = P + 1/2 H, q = Q + 1/2H, q = 1 ‐ p
liczba alleli (kopii genu) danego typu podzielona przez całkowitą
liczbę alleli (kopii genu) w populacji
p =NA1/2N, q = NA2/2N
Prawo Hardy’ego-Weinberga
założenia
organizm diploidany
rozmnażanie płciowe
niezachodzące na siebie pokolenia
identyczne częstości alleli u obu płci lub gatunek hermafrodytyczny
kojarzenie losowe
bardzo duża (w teorii: nieskończona) populacja
brak mutacji
brak migracji
na rozpatrywany locus nie działa dobór naturalny
locus autosomalny, dwa allele A1 i A2 o częstościach p i q
częstości genotypów wynoszą:
P(A1A1) = p2 H(A1A2)= 2pq Q(A2A2) = q2
i nie zmieniają się z pokolenia na pokolenie
Prawo Hardy’ego-Weinberga
Losowe łączenie się gamet ‐ częstości różnych genotypów (kombinacji gamet) zależą tylko od częstości gamet
allel
częstość
allel A1
częstość
p
A1A1
p2
A1A2
pq
q
A2A1
qp
A2A2
q2
gamety
żeńskie
A2
gamety męskie
A1
A2
p
q
Częstości genotypów w zygotach:
P’(A1A1) = p2 H’(A1A2)= pq + qp = 2pq Q’(A2A2) = q2
Prawo Hardy’ego-Weinberga (H-W)
Losowe kojarzenie się osobników
częstości genotypów samic
częstości
genotypów samców
A1A1(P)
A1A2(H)
A2A2(Q)
A1A1(P)
P2
PH
PQ
A1A2(H)
PH
H2
HQ
A2A2(Q)
PQ
HQ
Q2
Potomstwo
Kojarzenie
częstość
A1A1
A1A2
A2A2
A1A1 x A1A1
P2
P2
‐
‐
A1A1 x A1A2
2PH
PH
PH
‐
A1A1 x A2A2
2PQ
‐
2PQ
‐
A1A2 x A1A2
H2
1/4H2
1/2H2
1/4H2
A1A2 x A2A2
2HQ
HQ
HQ
A2A2 x A2A2
Q2
_
_
Q2
Razem
1
(P + 1/2H)2 = p2
2(P + 1/2H)(Q + 1/2H) = 2pq
(Q + 1/2H)2 = q2
Prawo Hardy’ego-Weiberga
zależność częstości genotypów od częstości alleli
Najwięcej heterozygot w populacji
gdy częstości alleli jednakowe
Rzadki allel występuje prawie
wyłącznie w heterozygotach
przy losowym kojarzeniu
równowaga osiągana jest w czasie jednego pokolenia
Prawo Hardy’ego-Weinberga
3 allele
gamety ♀
A1 – p
p
p2
gamety ♂
q
r
pq
pr
A2 – q
qp
q2
qr
A3 – r
rp
rq
r2
Częstości genotypów
A1A1 A1A2 A2A2 A1A3 A2A3 A3A3 r2
p2 2pq q2 2pr 2qr
n alleli: n(n + 1)/2 możliwych genotypów,
z tego n typów homozygot
i n(n ‐ 1)/2 typów heterozygot
Pij = 2pipj, Pii = pi2
n
2
H
1
p
HE heterozygotyczność oczekiwana
E
i
i 1
dla locus
nazywana też różnorodnością genów można ją stosować
do genomów o dowolnej ploidalności, np. mtDNA Częstość nosicieli
gdy allel szkodliwy, powodujący chorobę lub śmierć homozygot jest recesywny to częstość nosicieli będzie o wiele większa niż częstość
chorych
locus z dwoma allelami A i a, homozygoty aa chore lub umierają, częstości genotypów w zygotach: AA – p2, Aa – 2pq
częstość nosicieli to proporcja heterozygot wśród osobników z normalnym fenotypem (genotypy AA i Aa)
f nosicieli
f Aa
2 pq
2q
2
f AA f Aa p 2 pq 1 q
p q 1
gdy allel jest rzadki, będzie występował prawie wyłącznie w heterozygotach
Chondrodystrofia u kondora kalifornijskiego
homozygoty dw/dw (karłowate) mają skrócone kości długie i giną w okolicach wylęgu
heterozygoty +/dw
i homozygoty +/+ są normalne
normalnych kondorów (proporcje mierzone podczas wylęgu) jest 97.04%, karłowatych 2.96% => częstość homozygot dw/dw = 0.0296
częstość allelu dw przy założeniu proporcji genotypów podczas wylęgu zgodnych z prawem Hardy’ego‐Weinberga: 0.0296 0.17
częstość nosicieli f nosicieli
2q
2 0.17
0.29 10x więcej niż chorych
1 q 1 0.17
Przyczyny odchyleń od H-W
nielosowe kojarzenia
kojarzenie w pokrewieństwie (wsobność)
podział populacji na subpopulacje = struktura genetyczna populacji
błędne genotypowanie, np. występowanie alleli zerowych
Te czynniki mogą powodować drastyczne odchylenia częstości genotypów od oczekiwań z prawa Hardy’ego‐
Weinberga
dobór naturalny
migracje
mutacje
zachodzące na siebie pokolenia
Odchylenia powodowane przez te czynniki będą umiarkowane jeżeli występuje losowe kojarzenie, bo w każdym pokoleniu przywraca ono częstości genotypów oczekiwane z prawa Hardy’ego‐Weinberga
Allele zerowe w mikrosatelitach
allel
ACTGTGCACCTGATCTG(AT)10GTCTGTACTGATCCTA
TGACACGTGGACTAGAC
CAGACATGACTAGGAT
√
starter
ACTGTGCACCTGATCTG(AT)17GTCTGTACTGATCCTA
TGACACGTGGACTAGAC
CAGACATGACTAGGAT
√
ACTGTGCACCTGATCTG(AT)12GTCTGTACTGATCCTA
TGACACGTGGACTAGAC
CAGACATGACTAGGAT
ACTGTGCACCTGATCTC(AT)12GTCTGTACTGATCCTA
!
CAGACATGACTAGGAT
TGACACGTGGACTAGAC
zerowy – brak amplifikacji
ACTGTGCACCTGATCTG(AT)15GTCTGTACTGATCCTA
TGACACGTGGACTAGAC
CAGACATGACTAGGAT
ACTGTGCACCTGATCTG(AT)10GTCTGTACTGATCCTA
TGACACGTGGACTAGAC
CAGACATGACTAGGAT
√
√
√
Prawo Hardy’ego-Weinberga
nierówne częstości alleli w płciach: locus autosomalny
wszystkie samice A1A1 –> pf = 1, pm= 0 wszystkie samce A2A2 –> qm = 1, qf = 0
całe potomstwo będzie heterozygotyczne, ale częstości alleli u samic i samców będą jednakowe
w kolejnym pokoleniu częstości genotypów będą zgodne z oczekiwaniami H‐W – równowaga osiągnięta w ciągu 2 pokoleń
Locus na chromosomie X, allele A1 i A2, trzy genotypy u samic, tylko dwa u samców, częstości alleli mogą się różnić między płciami, 2/3
chromosomów X jest u samic, 1/3 u samców
pf = Pf + ½Hf qf = Qf + ½Hf
pm = Pm
qm = Qm
q = 2/3qf + 1/3qm
Prawo Hardy’ego-Weinberga – locus na X
Potomstwo samice
Potomstwo samce
Kojarzenie
♀
♂
częstość
A1A1
A1A2
A2A2
A1
A1A1 x A1
PfPm
PfPm
‐
‐
PfPm
A1A1 x A2
PfQm
PfQm
‐
PfQm
A1A2 x A1
HfPm
1/2HfPm
1/2HfPm
‐
1/2HfPm
1/2HfPm
A1A2 x A2
HfQm
‐
1/2HfQm
1/2HfQm
1/2HfQm
1/2HfQm
A2A2 x A1
QfPm
A2A2 x A2
QfQm
Razem
1
QfPm
A2
QfPm
_
_
QfQm
pfpm
pfqm+pmqf
qfqm
QfQm
pf
qf
qf’ = Qf’ + 1/2Hf’ = qfqm+ ½(pfqm + pmqf) = ½qf(pm+ qm) + ½qm(pf + qf) =
= ½ (qf + qm)
qm’=qf
Prawo Hardy’ego-Weinberga – locus na X
częstość allelu u samic jest równa średniej z częstości u obu płci w poprzednim pokoleniu
częstość allelu u samców jest równa częstości u samic w poprzednim pokoleniu
gdy płcie różnią się
częstościami alleli ich wyrównanie zajmuje kilka pokoleń
gdy nie wiemy że locus leży na chromosomie płci zaobserwujemy pozorny niedobór heterozygot
podobnie zachowują się wszystkie geny u organizmów haplo‐
diploidalnych jak błonkówki
(Nie)równowaga sprzężeń
Dwa geny autosomalne: A i B, każdy z dwoma allelami: A1, A2 oraz B1, B2, możliwe 4 typy gamet:
Gameta
Częstość
Allel
Częstość
A1B1
x11
A1
p1 = x11 + x12
A1B2
x12
A2
p2 = x21 + x22
A2B1
x21
B1
q1 = x11 + x21
A2B2
x22
B2
q2 = x12 + x22
Jeżeli allele obu genów są przekazywane losowo, niezależnie od siebie, to częstości gamet będą wynosiły:
x11 = p1q1 x12=p1q2 x21 = p2q1 x22 = p2q2
wtedy znając częstości alleli w obu loci możemy określić
częstości gamet
(Nie)równowaga sprzężeń
A1
B1
A2
B2
tylko konwencja bo etykiety alleli można
zamienić!!!
gamety niezrekombinowane
A1
B2
A2
B1
gamety zrekombinowane
Odchylenie od losowości nazywamy nierównowagą sprzężeń
(nierównowagą gametyczną), częstości gamet możemy zapisać:
x11 = p1q1 + D
x22 = p2q2 + D
x12= p1q2 ‐ D
x21 = p2q1 ‐ D
(Nie)równowaga sprzężeń
częstości niezrekombinowanych gamet
D = x11 – p1q1, p1 = x11 + x12, q1 = x11 + x21, a więc
D = x11(1 – x11 – x21 – x12) – x12x21 = x11x22 – x12x21
częstości zrekombinowanych gamet
Dmax = 0.25, gdy nie ma gamet zrekombinowanych a niezrekombinowane mają równe częstości 0.5
Dmin = ‐0.25, gdy nie ma gamet niezrekombinowanych a zrekombinowane mają równe częstości po 0.5
D ≠ 0, niektóre kombinacje alleli występują w gametach częściej niż wynikałoby to z przypadku, inne rzadziej
więcej o nierównowadze sprzężeń na konwersatorium i ostatnim wykładzie
Dryf genetyczny
- eksperyment
0
p
o
bw75/bw75
k
bw/bw75
o
l
bw/bw
e
pokolenie zero:
107 populacji D. melanogaster
w każdej 8 ♀♀ i 8 ♂♂ bw/bw75
kolejne pokolenia:
8 ♀♀ i 8 ♂♂ losowo wybieranych z poprzedniego pokolenia
n
i
a
jak zmieniają się częstości alleli?
19
Buri 1956
Model populacji Wrighta-Fishera
N diploidalnych hermafrodytycznych osobników => skończona wielkość!
N nie zmienia się z pokolenia na pokolenie
niezachodzące pokolenia
każdy osobnik produkuje bardzo dużo gamet => pula gamet efektywnie nieskończona
nowe pokolenie powstaje przez losowe łączenie się w pary Frankham i in. 2010
2N gamet z puli
każdy osobnik przekazuje średnio 2 gamety do następnego pokolenia, wariancja też 2 – rozkład Poissona, może przekazać 0, 1, 2, 3 … gamet
brak doboru, mutacji, migracji => prawdopodobieństwo przejścia allelu do pokolenia t + 1 zależy tylko od jego częstości w pokoleniu t
=> brak pamięci, proces Markova
Dryf genetyczny jako błąd próby
populacja wielkości N, allele A1 i A2 z częstościami p i q
prawdopodobieństwo że w następnym pokoleniu będzie dokładnie j kopii allelu A1 otrzymujemy z rozkładu dwumianowego:
2N j 2N j
2 N !
p q
p jq2N j
P j alleli A1
j!2 N j !
j
gdy N = 9 (2N = 18) i p = 0.5, to Pt+1{j=0}=3.8 x 10‐6, ale Pt+1{j = 9} = 0.18
populacja polimorficzna może przejść z dowolnego stanu do dowolnego innego, lecz niewielkie zmiany są bardziej prawdopodobne
gdy jeden z alleli się utrwali zmiany nie będą możliwe
Dryf genetyczny
zmiany częstości alleli będą większe w mniejszych
populacjach
prawdopodobieństwo utrwalenia się
allelu jest równe jego aktualnej częstości => kumulatywne działanie dryfu
n populacji z początkową częstością allelu A1 = p
=> allel A1 utrwali się w np populacjach
Futuyma 2008
Dryf powoduje różnicowanie populacji
Różnicowanie
Podział
populacji
Eksperyment
Teoria
Frankham i in. 2010
Dryf genetyczny i dyfuzja
matematyczny opis dryfu opiera się na modelach dyfuzji cząsteczek gazu – analizujemy dużą liczbę populacji, których częstości alleli zmieniają się analogicznie do zmiany położenia cząsteczek gazu w przestrzeni
1 p
ln 1 p
t
(
p
)
4
N
średni czas utrwalenia allelu 1
p
p
ln p
t
p
4
N
średni czas utraty allelu 0
1 p
t ( p) pt1 ( p ) (1 p)t0 ( p )
średni czas zachowania polimorfizmu
dla nowopowstałego allelu (p = 1/(2N)):
śr. czas utrwalenia = 4N pokoleń, a prawdopodobieństwo utrwalenia tylko 1/(2N))
1 x ex
śr. czas utraty 2ln(2N) ln e x x
a prawdopodobieństwo utraty aż 1 ‐ 1/(2N)
Dryf i spadek heterozygotyczności
identyczność przez pochodzenie (identity by descent, IBD) – dwie kopie genów wywodzą się z jednej (fizycznie, przez replikację
DNA) kopii genu w poprzednim (lub dawniejszym – możemy zdefiniować arbitralnie) pokoleniu
identyczność stanu (identity by state, IBS) – dwie kopie genów reprezentują ten sam allel (np. A1)
zakładamy że brak mutacji, migracji i doboru
G ‐ prawdopodobieństwo że dwa losowo wybrane z populacji allele są IBS ~ homozygotyczność
w kolejnym pokoleniu IBS może wystąpić na dwa sposoby
t
t + 1
G’
prawdopodobieństwo 1
2N
t
G
t + 1
G’
prawdopodobieństwo 1
1
2N
Dryf i spadek heterozygotyczności
1
1
1
G
2N 2N
H 1 G
G'
1
1
1
1
1 H 1
H
2N 2N
2
N
1
1
1
1
1
H
H
H
H
H H ' H 1
2N
2N
2N
H ' 1 G' 1
1
H 1 H 0 1
2
N
1
1
H 2 H 1 1
H 0 1
2N
2N
...
t
t
1
H t H 0 1
H 0e 2 N
2N
2
tempo spadku heterozygotyczności odwrotnie proporcjonalne
do wielkości populacji
1 x ex
spadek heterozygotyczności jest geometryczny
Dryf i spadek heterozygotyczności
Ile czasu trzeba żeby heterozygotyczność w populacji spadła o połowę?
1 x ex
t1 / 2
H0
1
H 0 1
x
ln
e
x
2
2N
t1 / 2
1
ln 2 ln1
2N
ln 2
t1/ 2
2 N ln 2 1.39 N
1
ln1
2N
N=100 t1/2= 139 pokoleń
Frankham i in. 2010
N = 1000 000 t1/2= 1 390 000 pokoleń – bardzo dużo
1
Dryf genetyczny
prowadzi do utraty zmienności w populacjach, w tempie odwrotnie proporcjonalnym do ich wielkości
nawet w największych populacjach dryf determinuje los
większości nowopowstałych alleli bo na początku są one rzadkie
powoduje różnicowanie się częstości alleli między populacjami
odstępstwa od prawa H‐W generowane przez dryf są
rzędu 1/(2N) na pokolenie i są usuwane przez losowe kojarzenie – sam dryf nie powoduje znaczących odchyleń
od H‐W przy występowaniu losowego kojarzenia, choć
zmienia częstości alleli w populacji Spadek heterozygotyczności
eksperyment z dryfem u D. melanogaster
wielkość każdej populacji N = 16 osobników
heterozygotyczność uśredniona dla wszystkich populacji
oczekiwanie dla N=16
oczekiwanie dla N = 9
spadek szybszy niż oczekiwany!
Buri 1956
Efektywna wielkość populacji
w populacjach spadek zmienności jest szybszy a wahania częstości alleli większe niż by to wynikało z ich wielkości => populacje naturalne nie spełniają założeń idealnych populacji Wrighta‐Fishera
teoria będzie nadal obowiązywać gdy wielkość populacji (N) zastąpimy efektywną wielkością populacji (Ne)
Ne to taka wielkość idealnej populacji, w której dryf działa z taką samą siłą jak w populacji badanej; Ne można definiować w oparciu o:
zmianę prawdopodobieństwa identyczności przez pochodzenie (IBD) – inbreeding Ne
zmianę wariancji częstości alleli – variance Ne
tempo spadku heterozygotyczności – eigenvalue Ne
zazwyczaj (nie zawsze) wszystkie podejścia dają zbliżone wyniki
Czynniki wpływające na Ne
zmiany wielkości populacji
1
H t H 0 1
2N
t
Ht
1
1
1
1
1
1
1
1
H 0 2 N 0 2 N1 2 N 2 2 N t 1
1
1
2
N
i 0
i
t 1
1
1
1
1
2 N 2 N
i 0
i
e
t
Ne
1
i N
i
t 1
1 x ex
t
ln e x x
ln ab ln a ln b
średnia harmoniczna wielkości populacji w kolejnych pokoleniach
średnia harmoniczna mniejsza od średniej arytmetycznej
Dla liczebności w kolejnych pokoleniach: 1000, 700, 200, 15, 100 średnia arytmetyczna to 403 a Ne (średnia harmoniczna to 59)
Efekt założyciela i wąskie gardła
efekt założyciela – nowa populacja zakładana przez kilku migrantów
wąskie gardło populacyjne (bottleneck) – drastyczny spadek liczebności populacji
oba zjawiska powodują spadek zmienności genetycznej, bo drastycznie obniżają efektywną wielkość populacji
również
spadek potencjału
ewolucyjnego
Frankham i in. 2010
Stopień spadku zmienności zależy od:
• stopnia redukcji liczebności
• czasu trwania redukcji liczebności
• ewentualnej imigracji osobników Żubr – mimo że odtworzono go jedynie z 12 (7) założycieli zachowała się znacząca zmienność mikrosatelitów i MHC, wąskie gardło trwało tylko jedno pokolenie
Czynniki wpływające na Ne
nierówny stosunek płci 1
1
1
Ne 4N f 4Nm
Ne
4Nm N f
N f Nm
zróżnicowanie liczby potomstwa
w idealnej populacji Wrighta‐Fishera średnia liczba gamet na osobnika przechodzących do następnego pokolenia wynosi 2 i jest równa wariancji (rozkład Poissona)
gdy wariancja jest większa od średniej Ne spada
4N 2
Ne
Vk 2
Ne w różnych częściach genomu, Ne/N
mtDNA jest haploidalny i przekazywany tylko po matce
NemtDNA = ½Ne♀ = ¼Ne gdy efektywna wielkość populacji dla samców i samic jest taka sama
analogicznie NeY= ½Ne♂=1/4Ne gdy efektywna wielkość
populacji dla samców i samic jest taka sama
dla genów na chromosomie X NeX = 3/4Ne
z metaanalizy danych dla różnych organizmów wynika że prawie zawsze Ne << N, średnio Ne ≈ 1/10N
Frankham i in. 2010
Szacowanie Ne
głównie za pomocą markerów molekularnych ‐
konwersatorium
spadek heterozygotyczności z pokolenia na pokolenie (mikrosatelity, SNP)
zmiany częstości alleli w czasie
tempo spadku nierównowagi sprzężeń między loci
wzrost współczynnika wsobności oceniany z rodowodów
spadek różnorodności allelicznej
równowaga dryf‐mutacje – na kolejnych wykładach
Szacowanie Ne - przykład
wombat północny, w ciągu 120 lat jego populacja spadła z >1000 do ok. 25 osobników w 1981 r i 70 w latach 90tych
analiza mikrosatelitów z prób historycznych i współczesnych – pozostało 41% historycznej zmienności
t
t
12
Ht
1
2 Ne
e
1
e N e 0.41
H 0 2Ne
12
ln(0.41)
2Ne
12
Ne
6.7
2 ln(0.41)
Ne w ciągu ostatnich 120 lat < 7 osobników! Czas pokolenia 10 lat
Wsobność (inbred)
wsobność – kojarzenie między spokrewnionymi osobnikami
u człowieka tabu na kojarzenia krewniacze, kojarzenia między kuzynami
Rodzic – pokolenie 0
samozapłodnienie – najbardziej
ekstremalna forma inbreedingu
identyczność przez pochodzenie Dziecko – pokolenie 1
(identity by descent, IBD) –
dwie kopie genów wywodzą się z jednej (fizycznie, przez replikację
DNA)
współczynnik wsobności F – prawdopodobieństwo że dwie kopie genu w danym locus u osobnika są IBD
arbitralnie możemy wybrać czas (pokolenie) w przeszłości gdy F = 0
Wsobność (inbred)
genotyp rodzica to 12 – zerujemy F w tym pokoleniu, więc 1 i 2 nie są IBD, nie ma dla nas znaczenia ich stan alleliczny
możliwe genotypy dziecka i ich prawdopodobieństwa:
11 – ¼ autozygotczny
Rodzic – pokolenie 0
12 – ¼
21 – ¼ allozygotyczny
22 – ¼ autozygotyczny
Pautozygotyczności = ¼ + ¼ = ½
Pallozygotyczności = ¼ + ¼ = ½
Dziecko – pokolenie 1
F = Pautozygotyczności = ½
genotyp autozygotyczny musi być homozygotyczny, allozygotyczny może być homo‐ lub heterozygotyczny (ignorujemy mutacje i rekombinację)
F można definiować jako prawdopodobieństwo lub jako korelacje łączących się gamet, korelacja może być ujemna
Wsobność (inbred)
populacja zaczyna rozmnażać się przez samozapłodnienie
A2A2
A2A2
A1A1
A1A2
A1A1
A1A1
A1A2
A2A2
A1A2
A1A1
A2A2
A1A1
A2A2
A1A1
A1A1
A1A1
A1A2
A1A1
A1A2
A1A1
A2A2
A1A2
A2A2
A1A2
A2A2
A2A2
A2A2
A1A1
A2A2
A1A1
A2A2
A1A2
autozygotyczna homozygota
częstości alleli
p=1/2 q =1/2
oczekiwane częstości genotypów
A1A1
A1A2
A2A2
8/32
16/32
8/32
obserwowane częstości genotypów
A1A1
A1A2
A2A2
12/32
8/32
12/32
allozygotyczna niedobór heterozygot
homozygota
autozygotyczna homozygota
allozygotyczna heterozygota
Wsobność (inbred)
allele (kopie genu) w osobniku mogą być allozygotyczne z prawdopodobieństwem 1 – F, albo autozygotyczne z F
dla allozygotycznych proporcje genotypów zgodne z oczekiwaniami H‐W
dla autozygotycznych tylko homozygoty – ich częstości zgodne z częstościami alleli
częstości genotypów przy wsobności:
A1A1: p2(1 –F) + pF
= p2 + pqF
A1A2: 2pq(1 – F)
= 2pq ‐2pqF
= q2 + pqF
A2A2: q2(1‐F) + qF
wsobność nie zmienia częstości alleli w populacji lecz zmienia częstości genotypów
Wsobność (inbred)
w populacjach o skończonej wielkości inbred wzrasta z pokolenia na pokolenie nawet przy losowym kojarzeniu:
F=1/(2N) wpływ inbredu na częstości genotypów usuwany przez losowe kojarzenie, ale populacja staje się
coraz bardziej zinbredowana
Frankham i in. 2010
Depresja wsobna
Depresja wsobna to spadek przeżywalności, płodności lub tempa wzrostu, obserwowany często w następstwie kojarzeń krewniaczych
Zjawisko to jest szczególnie ważne w genetyce konserwatorskiej gdyż
poziom wsobności w małych populacjach jest często znaczny, choć
kojarzenia mogą być losowe
Genetycznie, populacje wsobne mają obniżoną heterozygotyczność
(większą homozygotyczność)
Dwie konkurencyjne hipotezy: Dominacji: spadek dostosowania wywołany ujawnianiem się rzadkich szkodliwych alleli w stanie homozygotycznym, gatunki o długiej historii wsobności powinny radzić sobie lepiej
Naddominacji: sama heterozygotyczność w wielu loci podnosi dostosowanie
Wydaje się że dominacja ważniejsza
Depresja wsobna
Z teorii dominacji wynika oczekiwanie że powinno działać
‘czyszczenie ze szkodliwych mutacji’ – i działa
Barton i in 2007
Depresja wsobna
jest powszechna wśród organizmów nie rozmnażających się przez samozapłodnienie
ma znaczący komponent stochastyczny
zazwyczaj jest silniejsza w warunkach stresowych
zazwyczaj jest silniejsza w populacjach dzikich niż w niewoli nie występuje u organizmów haploidalnych i w genach w których brak dominacji lub naddominacji
jej skutki w małych populacjach można usunąć
wprowadzając osobniki z innych populacji (pod warunkiem że będą się kojarzyć i produkować potomstwo z rezydentami) – genetic rescue
Depresja wsobna
wymieranie populacji
w zależności od współczynnika
wsobności (F)
Genetic rescue
Frankham i in. 2010
Obliczanie F z rodowodów
♂
A
B
♀
C
D
E
I
Rodowód kojarzenie między kuzynami
A
B
C
D
E
I
musimy prześledzić wszystkie ścieżki
od jednego rodzica do drugiego przez wspólnego przodka (przodków)
w przykładzie tylko jedna ścieżka:
DBACE
dla każdej liczymy FI
½(1+FA)
FI = ½ x ½ x ½ (1+ FA) x ½ x ½
= (½)5(1 + FA)
ogólnie FI = (½)i(1 + FA) gdzie i to liczba osobników w ścieżce
A
B
C
½
½ D
E
½
½
I
gdy więcej ścieżek to wykluczają się wzajemnie,
bo osobnik może być autozygotyczny tylko przez jedną z nich
aby otrzymać F dla osobnika sumujemy F dla różnych ścieżek
Obliczanie F z rodowodów
A
A
B
B
A
B
C
D
C
D
C
D
E
G
E
G
E
G
I
I
Rodowód
Udział w FI
Ścieżka:GDACE
(½)5(1 + FA) I
GDBCE
(½)5(1 + FB)
skomplikowane rodowody:
algorytmy i programy komputerowe
i
1
FI 1 FA
A 2
A – liczba ścieżek
Systemy regularnego inbredu
gdy osobniki rozmnażają się wyłącznie przez samozapłodnienie, to w krótkim czasie podział populacji na klony i całkowity zanik heterozygotyczności
linie wsobne zwierząt laboratoryjnych – kojarzenie brat‐
siostra przez min. 20 pokoleń
Frankham i in. 2010
Dobór naturalny
przeżywanie i reprodukcja zróżnicowane w zależności od posiadanych cech
dostosowanie: zdolność do przeżycia i wyprodukowania potomstwa => miara zdolności do przekazania własnych kopii genów (alleli) przyszłym pokoleniom
zjawisko statystyczne
aby ewolucja na drodze doboru zachodziła, cechy decydujące o dostosowaniu muszą się dziedziczyć
dobór działa lokalnie w obrębie genomu – na te geny, które odpowiedzialne są za kształtowanie cechy pod działaniem doboru – dlatego często można rozpatrywać
działanie doboru na pojedynczy gen, w oderwaniu od reszty genomu
Obserwacje doboru naturalnego w naturze
Ewolucja ryjka pluskwiaka Jadera haematoloma
Koelreuteria
elegans
serconasiennica
Obserwacje doboru naturalnego w naturze
melanizm przemysłowy u ćmy Biston betularia
Futuyma 2008
odporność na myksomatozę/zjadliwość wirusa u królików z Australii
Frankham i in. 2010
Efekty doboru sztucznego
Adaptacje
cechy pozwalające organizmom przystosować się do środowiska i warunków życia
jedynym znanym mechanizmem powstawania adaptacji jest dobór naturalny, czyli
adaptacje to cechy powstałe pod wpływem doboru naturalnego
dobór może wytworzyć niezwykle złożone adaptacje, drogą akumulacji niewielkich zmian, z których każda podnosi dostosowanie
adaptacja może zachodzić z istniejącej w populacji zmienności (standing genetic variation ‐ szybciej) lub w wyniku pojawiania się mutacji (wolniej)
Dostosowanie
dobór działa na fenotyp a jedynie pośrednio, przez los fenotypu, na genotyp który go warunkuje
bezwzględne mierzy się tempem wzrostu liczebności danego genotypu
w analizie doboru znaczenie ma dostosowanie względne (w), mierzone w stosunku do genotypu o najwyższym dostosowaniu
dostosowanie średnie to średnia dostosowań wszystkich genotypów ważona przez ich częstości w populacji
dobór ma wiele składników,
które należy rozważyć
badając dostosowanie
dostosowanie często mierzy się
liczbą potomków dożywających wieku rozmnażania i rozmnażających się
Założenia prostych modeli doboru
System genetyczny
pojedynczy, dwualleliczny locus autosomalny
diploidalność
osobniki kojarzą się losowo
Dobór
identyczny u obu płci
dobór przejawia się różnicami przeżywalności
dla każdego genotypu dobór jest stały w czasie i przestrzeni
Inne czynniki
niezachodzące na siebie pokolenia
brak mutacji
nieskończenie duża populacja
brak przepływu genów (migracji)
brak wsobności
Dostosowanie względne
Zygoty: A1A1 – 100, A1A2 – 200, A2A2 – 100
Dorosłe osobniki: A1A1 – 80, A1A2 – 160, A2A2 – 50
Przeżywalność (w tym przypadku miara dostosowania):
A1A1 – 0.8; A1A2 – 0.8, A2A2 – 0.5
wygodnie jest wystandaryzować te wartości tak, żeby największe dostosowanie wynosiło 1:
w11 = 0.8/0.8 = 1
w12 = 0.8/0.8 = 1
w22 = 0.5/0.8 = 0.625
gdy rozpatrujemy zmiany częstości alleli po wpływem doboru liczy się dostosowanie względne – dostosowanie genotypu względem innych genotypów obecnych w populacji
Ogólny model doboru ze stałym dostosowaniem
Locus z dwoma allelami A1 i A2 o częstościach p i q
genotyp A1A1
A1A2
częstość przed doborem
p2
2pq
dostosowanie (względne)
w11
w12
udział po dobrze
p2w11
2pqw12
częstość po doborze
dostosowanie średnie p 2 w11
w
2 pqw12
w
A2A2
q2
w22
q2w22
q 2 w22
w
Razem
1
w
1
w p 2 w11 2 pqw12 q 2 w22
interesują nas zmiany częstości alleli z pokolenia na pokolenie, częstość allelu po doborze wynosi
p 2 w11 pqw12
p pw11 qw12
p' 2
p w11 2 pqw12 q 2 w22
w
Ogólny model doboru ze stałym dostosowaniem
zmiana częstości allelu po jednym pokoleniu
p p ' p
p pw11 qw12 pw pq pw11 w12 qw12 w22
w
w
Szybkość zmiany częstości allelu zależy od wariancji częstości alleli i różnic w dostosowaniu między genotypami
Jak zmienia się średnie dostosowanie wraz ze zmianami częstości alleli?
dw d 2
p w11 2 pqw12 q 2 w22
dp dp
p + q = 1
i wzory
d 2
2
2
p w11 2 pw12 2 p w12 w22 2 pw22 p w22
na pochodne
dp
2 pw11 1 2 p w12 qw22 2 pw11 qw12 pw12 qw22
2 pw11 w12 qw12 w22
pq dw
p
2 w dp
Dobór przeciwko recesywnemu
allelowi letalnemu
kondor kalifornijski – karłowatość chondrodystroficzna, warunkowana recesywnym allelem jednego genu
fenotyp
genotyp częstość przed doborem
dostosowanie (względne)
udział po dobrze
norm
++
p2
1
p2 x 1
częstość po doborze
p2/(1 ‐ q2) 2pq/(1 ‐ q2) 0
q1
norm
+dw
2pq
1
2pq x 1
giną
dwdw
q2
0
q2 x 0
q
0 pq 0 q1 q
1 q 2 1 q 1 q 1 q
q q q2 q2
q q1 q
1 q
1 q
q 0.17
0.17 2
q
0.025
1 0.17
q1 0.145
Razem
1
1 ‐ q2
1.0
Dobór przeciw homozygotom recesywnym
(korzystny allel dominujący, szkodliwy recesywny)
genotyp
A1A1
dostosowanie 1
s – współczynnik doboru > 0
A1A2
1
A2A2
1‐s
w p 2 1 2 pq1 1 s q 2 p q sq2 1 sq2
2
spq2
p
0
2
1 sq
spq2
0
q
2
1 sq
Częstość allelu będzie spadać coraz wolniej, gdyż coraz rzadziej będzie występował w homozygotach.
Nieskuteczność eugeniki w usuwaniu szkodliwych alleli
Dobór przeciwko allelowi
częściowo recesywnemu
genotyp
A1A1
A1A2
dostosowanie 1
1‐hs
0 < h < 1 – miara stopnia dominacji
p
h = ½ ‐ kodominacja, dostosowanie heterozygot idealnie pośrednie
p
spq
21 sq
A2A2
1‐s
spqh1 2q q
0 gdy q 0
2
1 2 pqhs sq
1
s = 0.5
0.8
s = 0.1
0.6
p
0.4
s = 0.02
0.2
0
0
100
200
300
liczba pokoleń
400
500
Dominacja w zależności od h
h = 0 A1 dominujący, A2 recesywny
h = 1 A1 recesywny, A2 dominujący w
0 < h < 1 częściowa dominacja
h = 1/2 kodominacja
=addytywność
częściowa dominacja (A1)
w
addytywność
w
naddominacja
h <0 naddominacja
dominacja (A1)
w
h > 1 subdominacja, poddominacja
Naddominacja (przewaga heterozygot)
genotyp
dostosowanie A1A1
1 ‐ s1
A1A2
1
A2A2
1 ‐ s2
s1 i s2 > 0
1
0.8
s1 = s2 – symetryczna naddominacja
p
pq s1 p s2 q
p
1 s1 p 2 s2 q 2
p 0 gdy
p
s2
s1 s2
stabilny polimorfizm
0.6
s1 = s2 = 0.5
0.4
s1 = s2 = 0.1
0.2
0
0
50
100
liczba pokoleń
150
200
Dobór faworyzujący heterozygoty
(równoważący)
Allel A – normalna hemoglobina
Allel S – hemoglobina sierpowata, podstawienie 1 zasady w łańcuchu beta hemoglobiny powoduje zmianę jednego aminokwasu
Homozygoty SS giną w młodym wieku
Hetrozygoty AS cierpią na anemię, lecz wykazują wyższą odporność na malarię niż homozygoty AA –> mają najwyższe dostosowanie na obszarach gdzie malaria jest częsta
dobrze udokumentowane przykłady doboru faworyzującego heterozygoty są nieliczne
Prawdopodobnie inne formy doboru równoważącego decydują
o utrzymywaniu zmienności
Malaria
%Hbs
Subdominacja, poddominacja –
dobór przeciw heterozygotom
genotyp
dostosowanie A1A1
1 + s1
A1A2
1
pqs1 p s2 q
p
1 s1 p 2 s2 q 2
A2A2
1 + s2
s1 i s2 > 0
1.2
1
0.8
Równowaga nietrwała:
s2
p
s1 s2
Równowaga trwała: p = 0 lub q = 0
Przykład: rearanżacje chromosomowe, heterozygoty mają niższą
płodność z powodu problemów z mejozą
0.6
p
0.4
0.2
0
0
10
20
30
40
50
liczba pokoleń
ten dobór nie utrzymuje
zmienności
Zmiana częstości allelu pod działaniem
doboru a dominacja
gdy częstość allelu recesywnego niska będzie niewidoczny dla doboru, jego częstość będzie się zmieniała powoli niezależnie czy korzystny czy szkodliwy
większość alleli „recesywnych” obniża dostosowanie heterozygot o 1‐2%
dobór intensywniejszy na allel recesywny na chromosomie X – bo allel będzie zawsze widoczny dla doboru u samców
Równowaga dobór-mutacje
Frankham i in. 2010
Równowaga dobór-mutacje
allel szkodliwy A2 powstaje w wyniku mutacji i jest usuwany przez dobór
qmut 1 q u 0
jaka jest częstość równowagowa A2?
spq 2
s (1 q)q 2
qsel
0
2
2
1 sq
1 sq
działanie mutacji i doboru się równoważy
gdy allel A2 całkowicie recesywny
qˆ : qmut qsel 0
s (1 q)q 2
1 q u
1 sq 2
u suq sq
2
q2
u
s1 u
q
u
s
2
u 1
gdy allel A2 letalny (s = 1) to qˆ u
w populacji może się utrzymywać
znaczna liczba mało szkodliwych mutacji (s << 1)
Równowaga dobór-mutacje
arbitralna dominacja
genotyp
dostosowanie A1A1
1
A1A2
1‐hs
qmut 1 q u
qsel psel
qsel
pqsh1 2q sq
1 2 pqhs sq 2
A2A2
1‐s s>0
qmut u
gdy q ≈ 0
qsel qhs
qmut qsel 0
u qhs
u
q
hs
równowagowa częstość allelu jest równa tempu mutacji podzielonemu przez współczynnik doboru przeciw allelowi w heterozygocie
Choroby genetyczne człowieka
Dziedziczenie
Częstość
równowagowa
Autosomalne
recesywny
u/s
częściowa dominacja
u/hs
dominujący
u/s
Sprzężone z płcią
recesywny
3u/s
Choroba
Autosomalne dominujące
Achondroplazja
Retinoblastoma
Pląsawica Huntingtona
Autosomalne recesywne
Albinizm
Skóra pergaminowa
Fenyloketonuria
Mukowiscydoza
Choroba Tay‐Sachsa
Sprzężone z płcią recesywne
Hemofilia
Dystrofia Duchenne
Częstość alelu w populacji
5 x 10‐5
5 x 10‐5
5 x 10‐4
3 x 10‐3
2 x 10‐3
7 x 10‐3
2.5 x 10‐3
1 x 10‐3
1 x 10‐4
2 x 10‐4
Szacowanie tempa mutacji
z równowagi mutacje-dobór
hemofilia powodowana jest przez recesywny allel sprzężony z płcią
przeżywalność mężczyzn z hemofilią 0.25 ‐> s = 0.75
częstość hemofilii u mężczyzn na podstawie danych z duńskich szpitali q = 10.5 x 10‐5
3u
s
sqˆ
u
3
qˆ
u = 0.75 x 10.5 x 10‐5/3 ≈ 3 x 10‐5
to jest częstość mutacji na locus
Dobór a powstawanie klin
częstość allelu AdhF
gdy dostosowanie genotypów zmienia się zgodnie z gradientem środowiskowym mogą powstawać kliny
częstość alleli Adh u Drosophila melanogaster
szerokość geograficzna
Berry i Kreitman 1993
kliny mogą powstawać też w wyniku innych procesów
argumentem za rolą doboru jest powtarzalność klin w różnych miejscach gdzie warunki środowiskowe zmieniają się podobnie – w Adh u Drosophila podobny wzorzec w USA i w Australii
Inne formy doboru
zróżnicowany efekt allelu u płci – możliwy stabilny polimorfizm
gen na chromosomie X – allel recesywny zawsze będzie widoczny dla doboru u samców, bo mają tylko jeden X
antagonistyczna plejotropia – allel korzystny w młodym wieku może być szkodliwy w starszym
dobór zależny od zagęszczenia – allel może być korzystny gdy zagęszczenie populacji niskie, szkodliwy gdy wysokie
dobór wpływający na płodność
częsta forma doboru, nawet gdy jeden z genotypów bezpłodny częstości genotypów przy niezachodzących pokoleniach będą zawsze w równowadze H‐W
dobór zmienny w czasie i w przestrzeni
Dobór równoważący
ogólne pojęcie określające takie formy doboru, które powodują utrzymywanie trwałego polimorfizmu
dobór faworyzujący heterozygoty utrzymuje zmienność, lecz niewiele jest dobrych przykładów takiego doboru
dobór zmienny w czasie, gdy spełnione są dodatkowe warunki dobór zmienny w przestrzeni, gdy spełnione są
dodatkowe warunki
dobór negatywnie zależny od częstości – rzadkie allele mają przewagę selekcyjną – dostosowanie allelu jest negatywnie skorelowane z jego częstością
Dobór negatywnie zależny od częstości
Dobór negatywnie zależny od częstości, dostosowanie allelu spada wraz ze wzrostem jego częstości – w ten sposób będzie utrzymywać się
polimorfizm
ryba Peridossus microlepis
z jeziora Tanganika
dobór apostatyczny – drapieżniki uczą się rozpoznawać najczęstsze formy ofiar
mimikra Batesa – upodabnianie się
nieszkodliwych gatunków do trujących modeli
Futuyma 2009
Locus samoniezgodności u roślin
Locus samoniezgodności u roślin
zapobiega samozapłodnieniu
nawet w małych populacjach wysoka zmienność
linie alleliczne utrzymywane przez długi czas, bo gdy allel jest rzadki zyskuje przewagę selekcyjną i nie ginie w wyniku działania dryfu –
polimorfizm transgatunkowy
Częstość genotypu gospodarza
Dobór zależny od częstości może działać na
skutek koewolucji gospodarza i pasożyta
g
G oporny na P
g oporny na p
G
P Częstość genotypu pasożyta
P
Dobór zależny od częstości utrzymuje zmienność
genów zaangażowanych w odpowiedź immunologiczną
Geny MHC wiążą z dużą
specyficznością antygeny pasożytów, umożliwiając odpowiedź immunologiczną
Najbardziej zmienne geny człowieka, w MHC I nawet ponad 1000 alleli
Mutacje
Zmienność genetyczna powstaje w wyniku mutacji
Mutacje punktowe
tranzycje i transwersje
synonimowe i niesynonimowe
insercje i delecje – mutacje przesunięcia ramki odczytu, dodanie lub usunięcie jednostek powtarzalnych, np. w mikrosatelitach
Duplikacje tandemowe
Konwersja genów
Futuyma 2009
Mutacje chromosomowe
poliploidyzacja
inwersje: paracentryczne (supresory rekombinacji) i pericentryczne
wzajemne translokacje
fuzje i dysocjacje powodują zmiany
liczby chromosomów
Futuyma 2009
Ruchome elementy genetyczne
Retroelementy
retrotranspozony (LTR)
retropozony (bez LTR)
Transpozony DNA
replikatywne – przenoszą się
przez kopie
niereplikatywne – przenoszą się
przez wycinanie i wstawianie
Powodują liczne mutacje
przesunięcie ramki odczytu
zaburzenia ekspresji genów
rearanżacje genomu – miejsca rekombinacji
przetworzone pseudogeny
Futuyma 2009
Tempo mutacji
mierzy się mutacjami ponownymi na jednostkę czasu
można mierzyć tempo mutacji fenotypowych
od metody wykrywania
mutacji zależy jaką ich część
zidentyfikujemy
metody molekularne
pozwalają na bezpośrednie wykrywanie mutacji w DNA
Futuyma 2009
Szacowanie tempa mutacji
Bezpośrednie liczenie w szczepach laboratoryjnych (mutation accumulation lines)
Analiza rodowodów
Metody pośrednie
Zakładamy że mutacje są neutralne i ich tempo na rok lub pokolenie to u
Znamy czas dywergencji 2 gatunków w latach lub pokoleniach t
Znamy dywergencję sekwencji między gatunkami D
D = 2tu, a więc u = D/2t
Z porównań człowiek‐ szympans tempo mutacji 1.2 x 10‐9 / pozycję nukleotydową / rok albo 2.5 x 10‐8 / pokolenie, średnie tempo mutacji dla różnych ssaków nieco wyższe, A więc w każdym diploidalnym genomie człowieka (6 x 109 pz) byłoby 240 nowych, unikatowych mutacji, w populacji ludzkiej ponad bilion nowych mutacji w każdym pokoleniu – każda możliwa nieletalna mutacja pojawia się w każdym pokoleniu!
Resekwencjonowanie genomów „z pokolenia na pokolenie” – tempo mutacji oszacowane na 1‐1.3 x 10‐8 /pozycję/ pokolenie – 60‐80 nowych mutacji na diploidalny genom
Oszacowania tempa mutacji
Futuyma 2009
Choć tempo mutacji na pozycję
nukleotydową jest niskie,
tempo w jakim wytwarzają
zmienność w skali całego genomu jest znaczne
Barton i in. 2007
Oszacowania tempa mutacji
Losowość mutacji
mutacje są losowe pod względem miejsca i czasu
wystąpienia
ale różne typy mutacji pojawiają się z różnym tempem, np. tranzycje częstsze niż transwersje
ale regiony genomu różnią się znacznie tempem, czyli prawdopodobieństwem wystąpienia mutacji: mikrosatelity, minisatelity
TCATGTACGTTGATATATATATATATATGTCCTGATGTTA
preferencyjna metylacja cytozyny w ssaczych sekwencjach CpG prowadzi często do tranzycji C‐>T
Losowość mutacji
mutacje są losowe pod względem adaptacyjnym
środowisko nie indukuje powstania „potrzebnych”
mutacji – doświadczenia Ledebergów
Futuyma 2009
Rozkład efektów mutacji
Frankham i in. 2010
kontrowersja
Hipotetyczny rozkład efektów mutacji w kodujących regionach genomu
Porównanie żywotności much
homo‐i heterozygotycznych pod względem drugiego chromosomu (ok. 1/5 genomu) D. melanogaster
efekt mutacji recesywnych
Losy mutacji w populacjach
allel A1 mutuje do allelu A2 z prawdopodobieństwem u
brak mutacji wstecznych (A2‐>A1)
nie działa dryf genetyczny ani dobór
p1 = p0(1 ‐ u), p2 = p1(1 ‐ u) = po(1 ‐ u)2 ‐> pt = pt‐1(1 ‐ u) = po(1 ‐ u)t
ile czasu potrzeba żeby częstość allelu A1 spadła o połowę wyłącznie w wyniku mutacji?
x
1
x
e
u = 10‐5
½ p0 = po(1 ‐ u)t
ln e x x
ln½ = tln(1 ‐ u)
t = t1/2 = ln½/ln(1 ‐ u) ≈ 0.693/u
dla u = 10‐5 t1/2 ≈ 69.3 tys. pokoleń
mutacje zmieniają częstość allelu bardzo wolno
jeżeli prawdopodobieństwo mutacji jest niskie to często możemy zaniedbać mutacje wsteczne
Prawdopodobieństwo utraty
nowopowstałego allelu neutralnego
populacja o wielkości N, 2N kopii genów
nowopowstały w wyniku mutacji allel ma częstość 1/(2N)
allel jest neutralny
Pr że zostanie wylosowany w jednej próbie = 1/(2N)
Pr że nie zostanie wylosowany w jednej próbie = 1 – 1/(2N)
mamy 2N prób bo wielkość populacji pozostaje stała z pokolenia na pokolenie
dlatego Pr że allel nie zostanie wylosowany = nie przejdzie do następnego pokolenia = (1 – 1/(2N))2N ≈ e‐(2N/2N) = e‐1 ≈
0.368 1 x e x
większość nowopowstałych alleli szybko znika z populacji
Prawdopodobieństwo utrwalenia
nowopowstałego allelu neutralnego
populacja o wielkości N, 2N kopii genów
nowopowstały w wyniku mutacji allel ma częstość 1/(2N)
allel jest neutralny
każda obecna w populacji kopia genu ma jednakową
szansę utrwalenia w populacji = kiedyś w przyszłości w populacji będą jedynie potomkowie tej kopii genu
jeżeli w populacji jest i kopii allelu A1, to prawdopodobieństwo utrwalenia się tego allelu = i/2N = częstości allelu, bo utrwalenie się allelu nastąpi w wyniku utrwalenia się którejkolwiek z i kopii
jeżeli allel powstał w wyniku jednej mutacji, jego częstość
wynosi 1/(2N) = prawdopodobieństwo utrwalenia
Heterozygotyczność i
model nieskończonej liczby alleli (Infinite Allele Model, IAM) – każda mutacja w populacji daje nowy allel
przy IAM każda homozygota ma allele które są identyczne przez pochodzenie (IBD, wywodzą się od jednej kopii genu, która kiedyś
zmutowała) ‐> każda homozygota jest autozygotyczna
osobnik w pokoleniu t + 1 może być homozygotyczny na jeden z dwu wykluczających się sposobów:
1) obie jego kopie genu pochodzą z tej samej kopii w pokoleniu t i żadna z nich nie zmutowała, albo
2) jego kopie pochodzą z dwu różnych kopii genu w pokoleniu t, które były autozygotyczne (miały ten sam stan alleliczny) i żadna z nich nie zmutowała
t
t + 1
t
t + 1
1)
2)
Pr= 1
1 u 2
2N
Ft‐1
1
2
Pr= 1
Ft 1 1 u
2N
Wsobność (Inbred)
genotyp rodzica to 12 – zerujemy F w tym pokoleniu, więc 1 i 2 nie są IBD, nie ma dla nas znaczenia ich stan alleliczny
możliwe genotypy dziecka i ich prawdopodobieństwa:
11 – ¼ autozygotczny
Rodzic – pokolenie 0
12 – ¼ 21 – ¼ allozygotyczny
22 – ¼ autozygotyczny
Pautozygotyczności = ¼ + ¼ = ½
Pallozygotyczności = ¼ + ¼ = ½
Dziecko – pokolenie 1
F = Pautozygotyczności = ½
genotyp autozygotyczny musi być homozygotyczny, allozygotyczny może być homo‐ lub heterozygotyczny (ignorujemy mutacje i rekombinację)
F można definiować jako prawdopodobieństwo lub jako korelacje łączących się gamet, korelacja może być ujemna
Heterozygotyczność i
Pr autozygotyczności bez mutacji = Pr homozygotyczności przy IAM
w równowadze Ft = Ft–1 = Feq
1
1
2
2
Ft
1 u 1
Ft 1 1 u
2N
2N
1
1
2
2
Feq
1 u Feq
1 u 1
2N
2N
2
2
1 u
1 u
Feq
2 N 2 N 11 u 2 2 N 2 N 11 u 2
2N
Feq
2N
ignorujemy składniki z u2 bo są
bardzo małe
1 2u
1 2u
1
2 N 2 N 4 Nu 1 2u 4 Nu 2u 1 4 Nu 1
Heterozygotyczność (H) = 1 – homozygotyczność
H eq 1 Feq 1
1
4 Nu
4 Nu 1 4 Nu 1 1
= 4Nu to populacyjne tempo mutacji, bardzo ważny parametr określający oczekiwane zasoby zmienności neutralnej w populacji
Heterozygotyczność i
zasoby zmienności neutralnej w populacji zależą od tempa mutacji oraz od wielkości populacji
w populacji odbiegającej od założeń modelu Wrighta‐Fishera Ne ≠ N
w takiej populacji = 4Neu
loci o różnym tempie mutacji neutralnych będą miały różną
oczekiwaną heterozygotyczność
jest to rodzaj równowagi, w której średnia heterozygotyczność się nie zmienia ale zmieniają się allele, tzn. w różnych momentach różne allele będą miały najwyższe częstości
okazuje się że istnieje również równowagowy rozkład częstości alleli
= spektrum częstości alleli; najczęstszy allel będzie miał częstość p1, kolejny p2 itd.; w miarę jak populacja będzie ewoluowała pod wpływem dryfu i mutacji te częstości pozostaną takie same lecz będą
się zmieniały allele, tzn. po pewnym czasie zamiast allelu A1 najczęstszym allelem w populacji będzie Ax itd.
Formuła Ewensa i test Ewensa-Wattersona
Ewens (1972)pokazał, że w równowadze przy IAM i neutralności oczekiwana (średnia) liczba różnych alleli w próbie wynosi:
2N
n 1
1 2
2 N 1 i 0 i
przy niskich wartościach w populacji będzie mało zmienności
oczekiwana liczba alleli
= 4
= 2
= 1
= 0.25
wielkość próby
Formuła Ewensa i test Ewensa-Wattersona
znając n i 2N można obliczyć a z niej homozygotyczność
równowagową oczekiwaną dla IAM
mając n różnych alleli w próbie 2N kopii genów i znając ich częstości n
można obliczyć oczekiwaną homozygotyczność próby Fexp pi2
i porównać ją statystycznie z oczekiwaną
i 1
homozygotycznością równowagowej populacji przy neutralności Feq –
test Ewensa‐Wattersona
rozkład Feq uzyskuje się przez symulację komputerową, która generuje dużą liczbę prób o wielkości 2N i liczbie alleli n przy założeniach: neutralności, IAM i równowagi dryf‐mutacje, oblicza homozygotyczność oczekiwaną dla każdej próby i porównuje wartości Fexp otrzymaną z prawdziwych danych z takim rozkładem celem określenia istotności statystycznej
Formuła Ewensa i test Ewensa-Wattersona
brak neutralności – różne formy
doboru
brak równowagi między dryfem
i mutacjami, np. niedawna ekspansja demograficzna, wąskie
gardło populacyjne
częstość allelu
oczekiwaną homozygotyczność dla danej liczby alleli można interpretować jako kształt rozkładu częstości alleli
Fexp > Feq – rozkład częstości alleli bardziej skośny – nadmiar rzadkich alleli, np. dobór oczyszczający
Fexp < Feq – rozkład częstości alleli bardziej wyrównany, nadmiar alleli o pośrednich częstościach np. dobór zależny od częstości
test E‐W mierzy odchylenia od oczekiwanego rozkładu częstości alleli ale nie mówi o ich przyczynach,
mogą nimi być:
Rozkład częstości alleli
oczekiwanie neutralne
równowagowe
allele posegregowane od najczęstszego do najrzadszego
Formuła Ewensa i test Ewensa-Wattersona
rozkład częstości alleli dla 12 allozymów w populacji E. coli zgodny z oczekiwaniami neutralnymi
Whittam i in. 1983
oczekiwaną homozygotyczność Fexp można obliczyć i stosować dla organizmów o dowolnej ploidalności – miara kształtu rozkładu częstości alleli a nie rzeczywista homozygotyczność
Tempo ewolucji neutralnej
w każdym pokoleniu pojawia się 2Nu mutacji neutralnych
Pr utrwalenia nowopowstałego allelu neutralnego = jego początkowej częstości =1/(2N)
tempo zastępowania się mutacji neutralnych w populacji:
2Neu x 1/(2Ne) = u
tempo zastępowania się mutacji neutralnych w populacji jest równe tempu mutacji neutralnych i nie zależy od wielkości populacji
czas utrwalenia allelu, który się w końcu utrwali zależy od wielkości populacji i wynosi średnio 4Ne
w małych populacjach będzie niewiele alleli a utrwalanie będzie zachodziło szybko ‐> mała zmienność
w dużych populacjach będzie dryfowało wiele alleli a utrwalanie będzie zachodziło powoli ‐> duża zmienność
brak tak wyraźnego związku heterozygotyczności z wielkością
populacji, jaki przewidywałaby teoria neutralna
Dryf genetyczny i dyfuzja
matematyczny opis dryfu opiera się na modelach dyfuzji cząsteczek gazu – analizujemy dużą liczbę populacji, których częstości alleli zmieniają się analogicznie do zmiany położenia cząsteczek gazu w przestrzeni
1 p
ln 1 p
t
(
p
)
4
N
średni czas utrwalenia allelu 1
p
p
ln p
t
p
4
N
średni czas utraty allelu 0
1 p
t ( p) pt1 ( p ) (1 p)t0 ( p )
średni czas zachowania polimorfizmu
dla nowopowstałego allelu (p = 1/(2N)):
śr. czas utrwalenia = 4N pokoleń, a prawdopodobieństwo utrwalenia tylko 1/(2N))
1 x ex
śr. czas utraty 2ln(2N) ln e x x
a prawdopodobieństwo utraty aż 1 ‐ 1/(2N)
Tempo ewolucji neutralnej
w każdym pokoleniu pojawia się 2Nu mutacji neutralnych
Pr utrwalenia nowopowstałego allelu neutralnego = jego początkowej częstości =1/(2N)
tempo zastępowania się mutacji neutralnych w populacji:
2Neu x 1/(2Ne) = u
tempo zastępowania się mutacji neutralnych w populacji jest równe tempu mutacji neutralnych i nie zależy od wielkości populacji
czas utrwalenia allelu, który się w końcu utrwali zależy od wielkości populacji i wynosi średnio 4Ne
w małych populacjach będzie niewiele alleli a utrwalanie będzie zachodziło szybko ‐> mała zmienność
w dużych populacjach będzie dryfowało wiele alleli a utrwalanie będzie zachodziło powoli ‐> duża zmienność
brak tak wyraźnego związku heterozygotyczności z wielkością
populacji, jaki przewidywałaby teoria neutralna
Teoria neutralna
Jeżeli duża część podstawień aminokwasów w białkach jest neutralnych, to w populacjach może utrzymywać się znaczny polimorfizm
Jest to polimorfizm przejściowy, częstości alleli zmieniają się
w wyniku dryfu, jedne allele giną inne rosną w częstość
Poziom zmienności w populacji będzie determinowany wartością
– więcej zmienności będzie w większych populacjach lub w loci o wyższym tempie mutacji
Tempo ewolucji neutralnej będzie równe tempu mutacji i nie będzie zależało od wielkości populacji
Futuyma 2009
Konsekwencje teorii neutralnej
t.n. nie zakłada że większość mutacji w ogóle jest neutralnych lecz jedynie że większość mutacji obserwowanych w populacjach jest neutralnych, wyraźnie szkodliwe mutacje będą szybko usuwane przez dobór ‐> nie zaobserwujemy ich w próbach z populacji
na los większości mutacji nie powinien wpływać dobór naturalny lecz historia populacji – demografia, przepływ genów – markery neutralne do wnioskowania o historii populacji, gatunków i pokrewieństwie osobników
ponieważ tempo ewolucji neutralnej zależy tylko od tempa mutacji, zmiany powinny się gromadzić liniowo w czasie ‐> powinien istnieć
zegar molekularny
ponieważ poziom zmienności determinowany jest przez parametr = 4Nu, to zakładając że tempo mutacji konkretnych genów nie różni się bardzo, powinien istnieć wyraźny związek między heterozygotycznością a efektywną wielkością populacji
Teoria neutralna a rzeczywistość
obserwowana i oczekiwana zależność
heterozygotyczności allozymów od Ne
zależność dużo słabsza niż oczekiwana
zegar molekularny
tyka w latach kalendarzowych
a nie w pokoleniach
brak efektu czasu generacji w białkach
teoria neutralna generuje przewidywania, które łatwo testować, a ewentualne odchylenia od oczekiwań pozwalają
zrozumieć procesy warunkujące zmienność
Frankham i in. 2010
Dobór w skończonych populacjach
Analizując modele doboru zakładaliśmy że populacja jest nieskończenie duża
Wzajemne oddziaływanie dryfu i doboru jest bardziej złożone niż
mutacji i dryfu, bo siła doboru zmienia się w zależności od częstości allelu
Korzystny allel powstały w wyniku mutacji będzie na początku rzadki – istnieje duża szansa że zniknie z populacji z przyczyn losowych –
dryf
Gdy allel A1 jest korzystny, jego przewaga selekcyjna wynosi s (s > 0), oraz efekt allelu jest addytywny (dostosowania: A1A1 = 1 + 2s, A1A2 =1+ s, A2A2 = 1) to Pr utrwalenia allelu w zależności od jego częstości wynosi:
1 e 4 Nsp
Prutrwalenia _ A1 p
1 e 4 Ns wyprowadzenie trudne, wykorzystuje model dyfuzji
Dobór w skończonych populacjach
gdy allel nowopowstały jego częstość p = 1/(2N), 1
4 Ns
2N
1 x ex
1 e
1 1 2 s
1 1 e
2s
Prutrwalenia _ A1
4 Ns
4 Ns
4 Ns
e 4 Ns 0
1 e
1 e
1 e
2N
Pr_utrwalenia_A1(1/(2N)) = 2s, czyli Pr utrwalenia allelu korzystnego jest równe dwukrotności przewagi selekcyjnej jaką ten allel daje w heterozygotach
również allel szkodliwy może się utrwalić w skończonej populacji, za taki można uznać A2 z poprzedniego slajdu, wtedy
2 s
1 e 4 Ns 1 q
Pr_ utrwalenia _ A 2 q 1 P_ utrwalenia _ A1 1 q 1
1 e 4 Ns
1 e 4 Ns 1 e 4 Ns 1 q e 4 Ns e 4 Nsq 1 e 4 Nsq 1
4 Ns
4 Ns 4 Ns
1 e 4 Ns
e
e 1
e 1
e 4 Ns 1 q e 4 Ns e 4 Nsq
1 e 4 Ns e 4 Ns
gdy allel szkodliwy nowopowstały (q = 1/(2N) i s << 1
2s
1
Pr_ utrwalenia _ A2
4 Ns
2N e 1
gdy 4Ns>>1 Pr utrwalenia allelu szkodliwego = 0
gdy 4Ns ≤ 1 Pr utrwalenia allelu szkodliwego może być znaczne i zbliżać się do neutralnego
Wielkość populacji a efektywność doboru
w małych populacjach dobór działa mniej efektywnie bo nad doborem może przeważać dryf
dryf przeważa gdy 1/(2N) > 2s: Pr utrwalenia allelu w wyniku dryfu jest większe niż w wyniku doboru, gdzie s – przewaga selekcyjna allelu w heterozygocie
efektywność doboru – stosunek
Pr utrwalenia korzystnego allelu o przewadze selekcyjnej s
w populacji o Ne do Pr utrwalenia w populacji nieskończonej (takiej w której nie działa dryf)
dla mutacji korzystnych tempo podstawień zależy od wielkości populacji k = 2Nu∙2s = 4Nus, a więc przy stałym u i s w większych populacjach ewolucja adaptacyjna
będzie zachodzić szybciej
ponadto w małych populacjach jest mniej istniejącej zmienności Frankham i in. 2010
(standing genetic variation) oraz powstaje mniej mutacji ‐>
tempo adaptacji będzie obniżone
Teoria mutacji prawie neutralnych
zakłada że większość mutacji segregujących w populacjach jest minimalnie szkodliwych, s ~ 1/(2Ne)
minimalnie szkodliwe mutacje mogą ulec utrwaleniu w wyniku dryfu
To, czy mutacja będzie zachowywać się jak neutralna czy jak szkodliwa, zależy od wielkości Ne i od s
teoria prawie neutralna wyjaśnia trzy obserwacje, których nie wyjaśnia teoria neutralna:
tempo substytucji aminokwasów niższe niż
nukleotydów
brak efektu generacji w genach kodujących białka lecz silny w niekodującym DNA
niewielkie zróżnicowanie heterozygotyczności między grupami o dużym zróżnicowaniu Ne
s < 0 – allel szkodliwy
s >0 – allel korzystny
Mutacje i dryf w sekwencjach DNA
tempo mutacji na miejsce nukleotydowe jest zwykle niskie, rzędu 10‐8
– 10‐9 na pokolenie
nawet jeśli mutacje są neutralne, to w próbie sekwencji z tego samego locus pobranych z populacji naturalnej, większość pozycji
nukleotydowych będzie niezmiennych
ponieważ mutacje są rzadkie i mogą wystąpić w wielu miejscach (genomy maja 106 – 1010 pz), to nowe mutacje będą występować prawie zawsze w miejscach, które wcześniej nie mutowały – model nieskończonej liczby miejsc (Infinite Sites Model, ISM) – miejsce zmienne zawiera w populacji tylko dwa różne nukleotydy, dane empiryczne wskazują że prawie zawsze tak jest
różnorodność nukleotydów można interpretować jako heterozygotyczność na pozycję nukleotydową, jest prawie zawsze << 1 i wtedy: H
1
= 4Nu
1
Koalescencja
na dryf genetyczny możemy spojrzeć „wstecz”
wychodzimy od próby kopii genów ze współczesnej populacji
co możemy powiedzieć o historii populacji, która doprowadziła do takiej próby?
liczba przodków osobnika rośnie gdy cofamy się w czasie (2 rodziców, 4 dziadków, 8 pradziadków...)
gdy wykluczymy rekombinację każda kopia genu ma dokładnie 1 przodka w poprzednim pokoleniu Felsenstein www
dwie różne kopie genu mogły mieć jednego przodka w poprzednim pokoleniu ‐> koalescencja
liczba przodków próby kopii genów ze współczesnej populacji spada gdy cofamy się w przeszłość
Koalescencja
śledzimy jedynie przeszłość
naszej próby ‐> wydajność, bo ignorujemy linie, które nie zostawiły potomków
interesuje nas genealogia próby
genealogii nie znamy i nie możemy poznać
możemy o niej wnioskować na podstawie zmienności sekwencji
chcemy dowiedzieć się od czego zależy kształt i długość genealogii
chcemy wykorzystać genealogię
do wnioskowania
o przeszłości populacji i szacowania różnych parametrów jak np. Ne
Kuhner www
Koalescencja
współczesne sekwencje
(kopie genów)
próba zawsze ma jakąś genealogię, nawet gdy wszystkie sekwencje są identyczne
0
proces rozgałęziania (zbiegania się) linii T4
t1
jest niezależny od ich stanu allelicznego ‐> podczas symulacji można T3
t2
rozdzielić genealogie i mutacje
koalescencje
nie znamy wartości t0, t1 itd., T2
ale możemy o nich wnioskować
t3
z rozmieszczenia mutacji
liczba mutacji w genealogii MRCA
zależy od jej całkowitej długości ostatni wspólny przodek
i tempa mutacji
Tc = 4 x t1 + 3 x (t2 – t1) + 2 x (t3 – t2) = 4T4 + 3T3 + 2T2 Ti – długość odcinka czasu w którym jest i linii = czas potrzebny do redukcji liczby linii z i do i – 1 oczekiwana liczba mutacji w genealogii = uTc
Koalescencja
oczekiwany czas koalescencji w próbie n kopii genów
stała wielkość populacji 2N kopii genów, zgodna z modelem Wrighta‐
Fishera
zaczynamy od 2 kopii genów – mają dwu różnych przodków w poprzednim pokoleniu = brak koalescencji z prawdopodobieństwem 1
2N 1
(Pr): 1
2N
2N
‐> druga kopia genu ma 2N możliwych przodków, ale tylko 2N – 1 z nich jest innych od przodka kopii pierwszej
Pr że trzecia kopia nie ma wspólnego przodka z pierwszą ani drugą:
2N 2
2N
Pr że wszystkie trzy miały różnych przodków w poprzednim pokoleniu: 2N 1 2N 2
2N
2N
Koalescencja
oczekiwany czas koalescencji w próbie n kopii genów
generalizując do n kopii genów, Pr, że wszystkie miały różnych przodków w poprzednim pokoleniu = że nie doszło do koalescencji (Prbrak_koalescencji):
1
2
n 1
2 N 1 2 N 2 2 N n 1
1
2
2
2
N
N
N
2N 2N
2N
Pr że do koalescencji doszło = 1‐Prbrak_koalescencji =
1
2
n 1 nn 1
= 1 1
2N
4N
2N 2N
ignorujemy wyrażenia 1/N2
i mniejsze
1 2 3 m
mm 1
2
Można zinterpretować koalescencję jako „sukces”
Jeżeli Pr sukcesu w każdym pokoleniu jest takie samo, to rozkład prawdopodobieństwa czasu do pierwszego sukcesu (pierwszej koalescencji) jest rozkładem geometrycznym
Rozkład geometryczny
Pr {X = i}
X, zmienna losowa przyjmująca wartości 1, 2, 3...
rozkład geometryczny opisuje czas do pierwszego sukcesu w serii prób, gdy Pr sukcesu w każdej próbie wynosi p, a Pr porażki q = 1‐ p
Pr{X = i} = Pr sukcesu w i‐tej próbie
Pr{X = i} = qi‐1p
średnia (wartość oczekiwana) E{i} = 1/p
wariancja Var{i} = q/p2
i
Koalescencja
średni czas do najbliższej koalescencji (średni czas oczekiwania) gdy mamy n linii, to z rozkładu geometrycznego 1/Prkoalescencji
ETn Tn
4N
nn 1
ta zależność obowiązuje dla dowolnych n > 1 i << 2N (próba kopii genów musi być znacznie mniejsza od wielkości populacji), czyli
n
4N
ponieważ Tc iTi to
ETi Ti
i i 1
i2
n
n 1
1
1
1
Tc iTi 4 N i
4 N
4N
i 2
i 2 i i 1
i 2 i 1
i 1 i
n
n
w modelu nieskończonej liczby miejsc (ISM), każda mutacja w populacji produkuje miejsce zmienne, bo każda pozycja nukleotydowa może zmutować tylko raz, dlatego liczba miejsc zmiennych = liczbie mutacji w genealogii, a całkowita oczekiwana S uTc
liczba mutacji w genealogii = uTc, czyli
Koalescencja
współczesne sekwencje
(kopie genów)
próba zawsze ma jakąś genealogię, nawet gdy wszystkie sekwencje są identyczne
0
proces rozgałęzniania (zbiegania się) linii T4
t1
jest niezależny od ich stanu allelicznego ‐> można rozdzielić genealogie i mutacje
T3
t2
nie znamy wartości t0, t1 itd., ale możemy o nich wnioskować koalescencje
T2
z rozmieszczenia mutacji
t3
liczba mutacji w genealogii zależy od jej całkowitej długości MRCA
i tempa mutacji
ostatni wspólny przodek
Tc = 4 x t1 + 3 x (t2 – t1) + 2 x (t3 – t2)= 4T4+3T3+2T2 Ti – długość odcinka czasu w którym jest i linii = czas potrzebny do redukcji liczby linii z i do i – 1 oczekiwana liczba mutacji w genealogii = uTc
Koalescencja
liczbę miejsc zmiennych w próbie n sekwencji możemy wykorzystać
do obliczenia iloczynu wielkości populacji i tempa mutacji, parametru n
n 1
populacyjnego tempa mutacji
1
1
S uTc 4uN
i2 i 1
S
4 Nu ˆ n 1
1
i 1 i
4 Nu
i 1
i
czas do wspólnego przodka (MRCA) – „wysokość” genealogii
TMRCA
n
1
1 1
T i 4N
4N
i
i2
i 2 i i 1
i 2 i 1
n
n
1
1
1
1
1 1 1 1
4 N 1
4 N 1
n 1 n 1 n
2 2 3 3
n
dla realistycznych n TMRCA = 4N, a więc równy czasowi utrwalenia nowopowstałej mutacji neutralnej
Tempo koalescencji
tempo koalescencji jest odwrotnością czasu oczekiwania na koalescencję
ETi Ti
4N
i i 1
1 i i 1
tempo_koalescencji
Ti
4N
zależy wprost proporcjonalnie od aktualnej liczby linii i odwrotnie proporcjonalnie od wielkości populacji
w miarę jak cofamy się w czasie
tempo koalescencji spada
T4 = N/3, T2 = 2N, TMRCA ≈ 4N
T2 ≈ ½ TMRCA czyli połowa całego czasu schodzi na oczekiwanie na koalescencję dwu ostatnich linii
MRCA
ostatni wspólny przodek
i=4
T4
i=3
T3
i=2
T2
Skalowanie czasu koalescencji
jeżeli uznamy, że jedna jednostka czasu ma długość 2N pokoleń, to średnia wysokość genealogii, czyli TMRCA wyniesie TMRCA
1
21
n
wtedy koalescencje następują w ułamkach jednostek – koalescencja w czasie ciągłym, prawdopodobieństwo koalescencji będzie opisane rozkładem wykładniczym, ciągłą wersją rozkładu geometrycznego
„znika” zależność od wielkości populacji
aby skonstruować losową genealogię (bez mutacji), wystarczy znać
aktualną liczbę linii – liczbę sekwencji w próbie
aby „nałożyć” mutacje na genealogię wystarczy znać populacyjne tempo mutacji , które można obliczyć na podstawie zmienności w próbie sekwencji
Do czego się przydaje koalescencja?
okazuje się, że można wyprodukować symulowane dane
dla bardzo złożonych scenariuszy, policzyć statystyki z wysymulowanych danych i prawdziwych danych i je porównać
ponieważ dla symulowanych danych znamy proces, który je wytworzył, to znaczy że ten proces produkuje taki rozkład statystyki
czyli jeżeli wartość statystyki obliczona z naszych danych mieści się w zakresie (np. 95%) wartości z symulacji to symulowany proces mógł doprowadzić do powstania takich danych
Do czego się przydaje koalescencja?
jeżeli wiemy że badana populacja/populacje ewoluowały mniej więcej zgodnie z określonym modelem to możemy wnioskować o wartościach różnych parametrów charakteryzujących populację/populacje:
czas dywergencji
historia demograficzna – historyczne zmiany wielkości populacji, wielkość populacji ancestralnej
przepływ genów między populacjami – jego zakres, kierunek i czas
tempo rekombinacji
Koalescencja to proces stochastyczny
Dryf genetyczny działa na różne neutralne części genomu średnio tak samo
Różne części genomu u osobników rozmnażających się płciowo mają różne historie
Genealogie różnych genów
z tej samej populacji będą
się bardzo różnić z powodów losowych
Dlatego, ponieważ zazwyczaj interesują nas parametry dla populacji a nie poszczególnych genów, lepiej dodać więcej genów niż więcej osobników
Test Tajimy
Czy nasza próba sekwencji DNA mogła powstać jako wynik procesu zbliżonego do neutralnej koalescencji w populacji Wrighta‐Fishera?
Test Tajimy
test analogiczny do testu Ewensa‐Wattersona, ale stosowany dla sekwencji DNA
mając sekwencje DNA możemy ocenić zarówno częstości alleli, jak i w jakim stopniu poszczególne allele różnią się od siebie
przy neutralności i w równowadze między mutacjami i dryfem
S
S
S
n 1
1
i 1 i
L
S – liczba miejsc zmiennych
L – długość sekwencji
n – liczba sekwencji w próbie
– różnorodność nukleotydów
L S
liczymy na całą sekwencję, wtedy
definiujemy d = – S , w równowadze d = 0
d > 0 gdy S, nadmiar alleli o pośrednich częstościach
d < 0 gdy S, nadmiar rzadkich alleli
S
n 1
1
i 1 i
gdy allel (wariant) jest rzadki, to w niewielkim stopniu wpływa na ale znacznie wpływa na S, bo każde miejsce zmienne które pojawia się w populacji jest liczone tak samo niezależnie, czy występuje tylko w jednej sekwencji, czy w wielu
Test Tajimy
L = 100, S = 5, = 0.0067
na całą dł. sekwencji:
S = 1.54 = 0.67
d = 0.67 ‐ 1.54 = ‐0.87
nadmiar rzadkich alleli?
L = 100, S = 5, = 0.0238
na całą dł. sekwencji:
S = 1.54 = 2.38
d = 2.38 ‐ 1.54 = 0.84
nadmiar częstych alleli?
czy można powiedzieć że w którymś z przypadków D jest istotnie różne od zera?
Test Tajimy
statystyka D Tajimy, to normalizowane d
D
d
Vard
Ponieważ rozkład D jest skomplikowany i trudno uzyskać
analitycznie jego wariancję, do testowania istotności wykorzystuje się zazwyczaj symulacje koalescentowe
dla obserwowanej wartości i liczby sekwencji w próbie n
wygeneruj 1000+ prób opartych o neutralną koalescencję
na podstawie wartości D z 1000+ skonstruuj przedział ufności dla D
istotność statystyczną D otrzymanej z próby oceń na podstawie porównania z granicami przedziału ufności
Test Tajimy
D=‐1.91 P<0.05
nadmiar rzadkich alleli
D=1.85 P>0.05
brak istotnych odstępstw
od oczekiwań przy neutralności i równowadze, ale rozkład częstości podejrzanie wyrównany
istotny wynik testu Tajimy wskazuje na odstępstwa od modelu neutralnego, lecz nie muszą one wynikać z działania doboru, a mogą
być wynikiem np. zmian demograficznych
ekspansja demograficzna – nadmiar rzadkich alleli
długotrwały spadek wielkości populacji – nadmiar częstych alleli
Określanie istotności testu Tajimy
symulacjami koalescentowymi
co musimy wiedzieć?
jaka jest wielkość próby? = ile sekwencji zbadaliśmy?
jaka jest wartość ? – możemy ją obliczyć z liczby miejsc segregujących S lub z różnorodności nukleotydów
co musimy zrobić?
skonstruować genealogię
nałożyć na nią mutacje
z genealogii z mutacjami odczytać sekwencję każdej z n kopii genów
policzyć statystykę D Tajimy
cały proces powtórzyć 1000+ razy
zobaczyć gdzie w tym rozkładzie statystyki D mieści się ta otrzymana z prawdziwych danych
podjąć decyzję czy nasza wartość D jest istotnie różna od 0
Określanie istotności testu Tajimy
symulacjami koalescentowymi
co musimy wiedzieć?
jaka jest wielkość próby? = ile sekwencji zbadaliśmy?
jaka jest wartość ? – możemy ją obliczyć z liczby miejsc segregujących S lub z różnorodności nukleotydów
co musimy zrobić?
skonstruować genealogię
nałożyć na nią mutację
z genealogii z mutacjami odczytać sekwencję każdej z n kopii genów
policzyć statystyke D Tajimy
cały proces powtórzyć 1000+ razy
zobaczyć gdzie w tym rozkładzie statystyki D mieści się ta otrzymana z prawdziwych danych
podjąć decyzję czy nasza wartość D jest istotnie różna od 0
Jak wysymulować
genealogię?
1. ustaw i = n (w tym przypadku i = 6)
2. wylosuj liczbę z rozkładu wykładniczego
o parametrze i(i‐1)/2; to będzie czas koalescencji Ti
3. wybierz losowo jedną parę linii, która ulegnie koalescencji, od tego momentu ta para linii będzie reprezentowana przez jedną linię
ancestralną
4. ustaw i=i‐1
5. jeżeli i=1 zakończ, jeżeli nie – idź do punktu 2
W ten sposób dostaliśmy genealogię próby 6 kopii genów
teraz możemy na gałęzie tej genealogii nałożyć
mutacje, o tym, ile ich będzie decyduje długość
genealogii (którą znamy, iTi) oraz parametr
T6
T5
T4
T3
T2
Jak wysymulować
genealogię?
Liczbę mutacji w historii genealogii otrzymujemy
losując wartość (liczba całkowita) z rozkładu Poissona
warunkowanego długością genealogii i parametrem
Otrzymaną liczbę mutacji, np. 4, umieszczamy losowo
na genealogii, czyli prawdopodobieństwo, że mutacja zajdzie w historii określonej linii jest proporcjonalna
do długości tej linii
T6
T5
T4
T3
T2
0100 0000 0000 0001 0000 1010
Jak z genealogii
odczytać sekwencje?
Ponieważ obowiązuje model nieskończonej liczby miejsc to:
Liczba miejsc zmiennych jest równa liczbie mutacji w próbie
Liczba potomków danej mutacji zależy od miejsca genealogii, w której mutacja zaszła
Interesują nas tylko miejsca zmienne (S=4)
Ponieważ w każdym miejscu zmiennym są tylko 2 różne nukleotydy, możemy użyć notacji 0/1
MRCA ma sekwencję 0000
Śledzimy historię mutacji w genealogii, kiedy się
pojawiają, ilu mają potomków – to wystarczy by wygenerować sekwencje miejsc zmiennych 6 współczesnych kopii genów
T6
0100 0000 0000
0000
1010
0100
0000
1000
0000
0000
0000
1000
T5
T4
T3
T2
0000
0000
0000
Symulacje genealogii koalescentowych
Mardulyn i in. 2010
Struktura populacji
(sub)populacja – grupa osobników żyjących w takiej odległości od siebie że potencjalnie mogą się skojarzyć z dowolnym innym osobnikiem w grupie
gatunek może być podzielony na częściowo lub całkowicie izolowane (sub)populacje, terminy populacja i subpopulacja będą używane w zależności od kontekstu
można sobie wyobrazić kontinuum struktury populacji
silna struktura
brak
struktury
Frankham i in. 2010
Struktura genetyczna populacji
Prawa
Lewa
Koty = bariera dla dyspersji
A1A1
A2A2
Hartl i Clark 2007
myszy nie wychodzą ze stodoły w populacji po lewej wszystkie A1A1, po prawej wszystkie A2A2
na środku drapieżne i żarłoczne koty łapią każdą mysz
rozstawiamy pułapki i łapiemy myszy nie wiedząc co się dzieje w stodole
co otrzymamy a czego oczekujemy?
Struktura genetyczna populacji
liczba myszy łapanych z lewej i prawej strony jest zbliżona ‐>
w naszej próbie pA1 ≈ qA2 ≈ 0.5
gdyby kojarzenie w stodole było losowe to oczekiwane częstości genotypów: A1A1 = ¼; A1A2 = ½; A2A2 = ¼
ale
obserwowane:
A1A1 = ½; A1A2 = 0; A2A2 = ½
subpopulacje różniły się częstościami alleli
kojarzenie w całej populacji nie było losowe
efekt:
całkowity brak heterozygot
przykład ekstremalny, ale dobrze oddający wpływ struktury populacji na częstości genotypów
pozorny niedobór heterozygot wynikający ze struktury populacji znany jest jako efekt Wahlunda
Efekt Wahlunda
populacja podzielona na k subpopulacji o równej liczebności, neutralny locus z dwoma allelami A1 i A2, w obrębie subpopulacji kojarzenie losowe
średnie obserwowane częstości genotypów:
A1A1
A1A2
A2A2
P
1
pi2
k
H
1
2 pi qi
k
p
Q
1
pi
k
1
qi2
k
A2 q
1
qi
k
średnie częstości alleli: A1
oczekiwane częstości genotypów ze średnich częstości alleli to:
2
p , 2 pq, q
2
jaka jest różnica między obserwowaną heterozygotycznością w całej populacji a oczekiwaną na podstawie średnich częstości alleli? od czego ta różnica zależy? Efekt Wahlunda
1
1
2
2
2
2
2
q
q
q
q
q
2
i
i
k
k
1 k
q qi
k i 1
k
1
1
1
2
2
2
2
q
q
q
q
q
q
q
k
q
2
2
i k i k
i i
k
k
k
2
2
q kq
1
1
i 1
2
2
2
q
q
q
q
q
q
Var
q
2
i i
i
k
k
różnica między obserwowaną i oczekiwaną częstością homozygot jest równa wariancji częstości alleli między subpopulacjami – wariancja zawsze 0, więc zawsze będzie nadmiar homozygot, chyba że identyczne częstości alleli we wszystkich subpopulacjach
obserwowane częstości genotypów można zapisać:
2
Qq
2
P p Vq
H 2 pq 2Vq
2
Q q Vq
a więc przy zróżnicowaniu częstości alleli zawsze będzie pozorny niedobór heterozygot
Heterozygotyczność na różnych poziomach
HI – obserwowana heterozygotyczność w subpopulacjach (z policzenia genotypów)
HS – oczekiwana heterozygotyczność w subpopulacjach (obliczona z częstości alleli) HS
2
pi qi
k
HT – oczekiwana heterozygotyczność w całej populacji obliczona na podstawie średniej częstości alleli w populacji H T 2 pq
Statystyki F
FIS – spadek heterozygotyczności w wyniku nielosowych kojarzeń w subpopulacjach
HI HS HI
FIS 1
HS
HS
FST – spadek heterozygotyczności w wyniku podziału na subpopulacje (istnienia struktury genetycznej prowadzi do nielosowych kojarzeń na poziomie całej populacji)
H
H HS
FST 1 S T
HT
HT
FIT – łączny spadek heterozygotyczności wywołany nielosowymi kojarzeniami w subpopulacjach i między subpopulacjacmi
H I HT H I
FIT 1
HT
HT
Statystyki F
A. Populacje z takimi samymi częstościami alleli, w jednej
kojarzenie losowe, w drugiej kojarzenia częściowo wsobne
Genotypy
Populacja
A1A1
A1A2
A2A2
Częstości
alleli
F
He
(=2pq)
1
0.25
0.5
0.25
p = 0.5
q = 0.5
0
0.5
2
0.4
0.2
0.4
p = 0.5
q = 0.5
0.6
0.5
Łącznie
HI = 0.35
FST = 0 FIS = 0.3 FIT = 0.3
p = 0.5
q = 0.5
HS = 0.5
HT = 0.5
Wsobność (inbred)
allele (kopie genu) w osobniku mogą być allozygotyczne z prawdopodobieństwem 1 – F, albo autozygotyczne z F
dla allozygotycznych proporcje genotypów zgodne z oczekiwaniami H‐W
dla autozygotycznych tylko homozygoty – ich częstości zgodne z częstościami alleli
częstości genotypów przy wsobności:
A1A1: p2(1 –F) + pF
= p2 + pqF
A1A2: 2pq(1 – F)
= 2pq ‐2pqF
= q2 + pqF
A2A2: q2(1‐F) + pF
wsobność nie zmienia częstości alleli w populacji lecz zmienia częstości genotypów
Statystyki F
B. Populacje z różnymi częstościami alleli, w obu kojarzenie losowe
Genotypy
Populacja
A1A1
A1A2
A2A2
Częstości
alleli
F
He
(=2pq)
1
0.25
0.5
0.25
p = 0.5
q = 0.5
0
0.5
2
0.04
0.32
0.64
p = 0.2
q = 0.8
0
0.32
Łącznie
HI = 0.41
FST = 0.099 FIS = 0 FIT = 0.099
p = 0.35
q = 0.65
HS = 0.41
HT = 0.455
Statystyki F
C. Populacje z różnymi częstościami alleli, w jednej kojarzenie losowe, w drugiej kojarzenia częściowo wsobne
Genotypy
Populacja
A1A1
A1A2
A2A2
Częstości
alleli
F
He
(=2pq)
1
0.25
0.5
0.25
p = 0.5
q = 0.5
0
0.5
2
0.14
0.13
0.74
p = 0.2
q = 0.8
0.6
0.32
Łącznie
HI = 0.31
FST = 0.099 FIS = 0.244 FIT = 0.319
p = 0.35
q = 0.65
HS = 0.41
HT = 0.455
1 FIT
Statystyki F
1 FST 1 FIS
HI
1 FIT
HT
HS
1 FST
HT
HI
1 FIS
HS
HS HI HI
HT H S HT
bo
z przykładu C:
FST = 0.099
FIS = 0.244
FIT = 0.319
1 – FIT = 0.681
1 – FST = 0.901
1 – FIS = 0.756
0.901 x 0.756 = 0.681
FST jako wariancja częstości alleli
H T 2 pq
H S H T 2Vq
z efektu Wahlunda, całkowita homozygotyczność wzrasta o 2Vq
o tyle samo spada heterozygotyczność
H T H S H T H T 2Vq Vq
FST
HT
HT
pq
FST to standaryzowana wariancja częstości alleli między populacjami
Tę właściwość wykorzystuje się przy szacowaniu wartości FST – jedno z podejść jest analogiczne do analizy wariancji
Efekt Wahlunda
1
1
2
2
2
2
2
q
q
q
q
q
2
i
i
k
k
1 k
q qi
k i 1
k
1
1
1
2
2
2
2
q
q
q
q
q
q
q
k
q
2
2
i k i k
i i
k
k
k
2
2
q kq
1
1
i 1
2
2
2
q
q
q
q
q
q
Var
q
2
i i
i
k
k
różnica między obserwowaną i oczekiwaną częstością homozygot jest równa wariancji częstości alleli między subpopulacjami – wariancja zawsze 0, więc zawsze będzie nadmiar homozygot, chyba że wariancja = 0, gdy identyczne częstości alleli we wszystkich subpopulacjach
obserwowane częstości genotypów można zapisać:
2
Qq
2
P p Vq
H 2 pq 2Vq
2
Q q Vq
a więc przy zróżnicowaniu częstości alleli zawsze będzie pozorny niedobór heterozygot
Struktura populacji a wsobność
w pewnym sensie istnienie struktury populacji powoduje wzrost wsobności w całej populacji, bo osobniki w subpopulacjach są ze sobą
bliżej spokrewnione niż średnio w całej populacji
jednak gdy kojarzenia w subpopulacjach będą losowe nie będzie odstępstw od częstości genotypów oczekiwanych z prawa Hardy’ego‐
Weinberga w subpopulacjach
efekt wsobności widać gdy porównujemy średnią heterozygotyczność
w subpopulacjach do oczekiwań opartych na średniej dla całej populacji
można powiedzieć że FST jest międzypopulacyjnym współczynnikiem wsobności
w tym przypadku subpopulacje będą odpowiednikiem osobników przy wsobności wywołanej kojarzeniem w pokrewieństwie
FIT to całkowity współczynnik wsobności biorący pod uwagę
wsobność w wyniku kojarzeń krewniaczych w populacjach i wynikającą z podziału populacji na subpopulacje
Hierarchiczna struktura populacji
Linanthus parryae na pustyni Mohave
częstości allelu recesywnego obliczone z częstości niebieskich kwiatów (homozygoty recesywne) w 30 (sub)populacjach
trzy regiony
0.032 0.000 0.010 0.002 0.068
0.007 0.000
0.573
0.657 0.008 0.0000.000 0.000 0.000
0.504 0.302
0.005 0.000 0.004 0.000
0.717
0.339
Zachód
0.009 0.005 0.126
Środek
0.000
0.106
0.224
0.411 0.014
Wschód
dane z Wrighta (1943)
statystyki F można rozszerzyć na większą liczbę poziomów: w (sub)populacjach, między (sub)populacjami, między regionami, całość
Hierarchiczna struktura populacji
Subpopulacje
Regiony
Region
q
H
Zachód
0.573
0.717
0.504
0.657
0.302
0.339
0.4893
0.4058
0.5000
0.4507
0.4216
0.4482
9x0.000
0.032
0.007
0.008
0.005
0.009
0.005
0.010
0.068
0.002
0.004
0.126
0.106
0.224
0.411
0.014
Środek
Wschód
Średnia H
Całość
średnie q
H
0.5153
0.4995
0.0000
0.0620
0.0139
0.0159
0.0100
0.0178
0.0100
0.0198
0.1268
0.0040
0.0080
0.2202
0.0138
0.0272
0.1895
0.3476
0.4842
0.0276
0.1888
0.3062
HS = 0.1424
HR = 0.1589
średnie q
H
0.1374
0.2371
HT = 0.2371
Hierarchiczna struktura populacji
Zakładamy losowe kojarzenie w populacji (FIS = 0)
HS średnia oczekiwana heterozygotyczność w (sub)populacjach
HR średnia oczekiwana heterozygotyczność obliczona na podstawie średnich częstości alleli w regionach
HT średnia oczekiwana heterozygotyczność obliczona na podstawie częstości alleli na całym obszarze
HR HS
HT H S
HT H R
Statystyki F:
FSR
HR
; FRT
HT
; FST
To podejście można rozszerzyć na dowolną liczbę
poziomów hierarchii
HT
Estymatory FST
istnieje kilka podejść do szacowania wartości FST z danych molekularnych gdy więcej niż 2 allele w locus (np. mikrosatelity, sekwencje DNA), popularnym estymatorem jest GST, które jednak jest wrażliwe na poziom zmienności i przy wielu allelach oraz wysokiej heterozygotyczności w populacjach (mikrosatelity) może znacznie zaniżać zróżnicowanie
G’ST – standaryzowany współczynnik GST – procent maksymalnego zróżnicowania możliwego przy obserwowanych częstościach alleli –
pozwala porównywać markery o różnym poziomie zmienności
Analiza Wariancji Molekularnej (AMOVA) – rodzaj hierearchicznej analizy statystyk F, pozwala określić jaki procent zmienności wyjaśniany jest przez poszczególne poziomy hierarchii
Tempo wzrostu FST a wielkość populacji
jeżeli brak przepływu genów między subpopulacjami, ich zróżnicowanie genetyczne będzie wzrastać w wyniku działania dryfu
wzrost zróżnicowania
będzie szybszy w mniejszych
populacjach
wzrostowi zróżnicowania
będą przeciwdziałać
migracje (przepływ genów)
Frankham i in. 2010
Dryf powoduje różnicowanie populacji
Różnicowanie
Podział
populacji
Eksperyment
Teoria
Frankham i in. 2010
Migracje
ogólny model wpływu migracji na skład genetyczny populacji
w przypadku neutralnych loci dryf genetyczny prowadzi do różnicowania genetycznego populacji a migracje (przepływ genów) działają w przeciwnym kierunku
efektywna migracja – gdy migrant pozostawi swoje geny w populacji kojarząc się z rezydentami, przepływ genów jest wynikiem efektywnej migracji, a nie jedynie przemieszczania się osobników
rozróżnienie między migracjami a dyspersją
Modele migracji
wpływ migracji na strukturę genetyczną zależy od rodzaju struktury populacji
wyspowy
kontynent‐
wyspy
2‐wymiarowy
stepping‐stone
1‐wymiarowy
stepping‐stone
metapopulacja
FST a Nm w modelu wyspowym
Pr autozygotyczności bez migracji = Pr homozygotyczności przy IAM
w równowadze Ft = Ft–1 = FST
1
1
2
2
Ft
1 m 1
Ft 1 1 m
2N
2N
1
1
2
2
FST
1 m FST
1 m 1
2N
2N
FST
2
2
1 m
1 m
2 N 2 N 11 m 2 2 N 2 N 11 m 2
2N
FST
2N
1 2m
1 2m
1
2 N 2 N 4 Nm 1 2m 4 Nm 2m 1 4 Nm 1
ignorujemy składniki z m2 bo są
bardzo małe
wyprowadzenie analogiczne
dla równowagi dryf‐mutacje
ale efekt biologiczny inny bo tempo migracji zwykle rzędy wielkości wyższe od tempa mutacji
Nm – efektywna liczba migrantów (osobników migrujących) na pokolenie Przy założeniu modelu wyspowego znając FST można obliczyć
równowagową liczbę migrantów na pokolenie
Zróżnicowanie genetyczne
a przepływ genów
„niezależnie od wielkości populacji wystarczy 1 migrant na pokolenie by populacje nie różnicowały się pod wpływem dryfu”... co to znaczy?
Frankham i in. 2010
Izolacja przez odległość
Jeżeli przepływ genów spada wraz z odległością, zróżnicowanie będzie wzrastało wraz z odległością
Gdy odległość geograficzna sama w sobie jest główną barierą
otrzymamy izolację przez odległość
Frankham i in. 2010
Gdy niedawna ekspansja zależności może nie być bo populacje „nie zdążyły” się zróżnicować
Równowaga dobór-migracje
dobór usuwa
allel z populacji
a migracja cały czas
go wprowadza
Frankham i in. 2010
12 sq 1 q 1 2 1
qdobór
2 sq 2 sq 0 qmigracja mqm q 0
1 sq
q qdobór qmigracje
równanie kwadratowe, 2
2
1
1
1
1
q 2 sq 2 sq mqm q 2 sq qm 2 s mqm rozwiązujemy względem q
2m s 2m s 2 8smqm
qeq
2s
Równowaga dobór-migracje
mysz
Chaetodipus intermedius
Hoekstra i in. 2010
Przyporządkowanie osobników do populacji
częstości alleli w badanych loci w interesujących nas populacjach są
znane
tych częstości alleli używamy do obliczenia prawdopodobieństw wstępowania danego genotypu w danej populacji,
dla locus k
Pk.l = p2i.l prawdopodobieństwo że homozygota AiAi pochodzi z populacji l
Pk.l = 2pi.lpj.l prawdopodobieństwo że heterozygota AiAj pochodzi z populacji l
pi.l częstość allelu i w populacji l zakładając że badane loci nie są sprzężone prawdopodobieństwo że osobnik pochodzi z populacji l uzyskujemy mnożąc prawdopodobieństwa dla wszystkich m loci:
m
Pl Pk l
k 1
Identyfikacja populacji
zawody w łowieniu łososi na jeziorze Saimaa
zwycięska ryba była podejrzanie duża
7 loci mikrosatelitarnych
sprawdzono czy ryba mogła pochodzić z jeziora Saimaa, przeprowadzono analizy też innych anadromicznych populacji
wykluczono że łosoś pochodził. z J. Saimaa – okazało się że wędkarz kupił rybę w sklepie rybnym
Primmer i in. 2000
Structure
często trudno zdecydować ile odrębnych genetycznie populacji występuje na danym obszarze K to założona liczba różnych genetycznie grup
algorytm szacuje częstości alleli w wielu loci charakterystyczne dla każdej z K
grup, i jednocześnie szacuje dla każdego osobnika jaki procent jego genomu należy do każdej z K grup (populacji)
sprawdzamy różne wartości K, oceniając statystycznie dopasowanie modelu do danych
w ten sposób można nie tylko określić liczbę populacji, zaklasyfikować
osobniki do populacji, ale też zidentyfikować potomków migrantów czy mieszańce międzygatunkowe
Lecis i in. 2006
Koalescencja a pomiar przepływu genów
Pomiar długoterminowego przepływu genów, nie zakładający równowagi dryf‐migrację można uzyskać
stosując techniki oparte na teorii koalescencji ‐ MIGRATE
Cechy ilościowe
większość cech wpływających na dostosowanie organizmu ma rozkład ciągły zbliżony do normalnego
rozkład ciągły może być wynikiem:
warunkowania cechy wieloma genami – cechy wielogenowe (poligenowe)
dużej liczby alleli w jednym locus
wpływu środowiska na wykształcenie cechy
interesuje nas badanie zmienności genetycznej cech ilościowych – nie wszystkie geny warunkujące wykształcenie cech wielogenowych wykazują zmienność –
np. często geny związane z rozwojem embrionalnym cechy – takie geny, mimo że warunkują cechę nie wpływają na jej zmienność
Cechy ilościowe
rozkład cechy warunkowanej genetycznie będzie ciągły gdy:
wiele alleli w genie
cechę warunkuje wiele genów
na wielkość cechy wpływa środowisko
a b c d e f g
Wielogenowość a rozkład ciągły
2 geny A i B z dwoma allelami każdy (A, a; B, b), losowe kojarzenie, każdy allel oznaczany duża literą ma taki sam efekt – dodaje 1 jednostkę koloru
Felsenstein www
Wielogenowość a rozkład ciągły
Nawet przy 2 genach, dwu allelach, symetrycznych efektach i addytywności mamy 5 klas fenotypowych i rozkład przypominający normalny Felsenstein www
Rozkłady cech ilościowych
Rozkłady cech ilościowych w populacjach są zazwyczaj zbliżone do rozkładu normalnego
Rodzaje cech ilościowych
ciągłe: wzrost, waga, mleczność
kategoryczne: liczba jaj w zniesieniu, całożyciowa liczba potomstwa
jeżeli kategorii jest dużo, z praktycznego punktu widzenia rozróżnienie między cechami ciągłymi i kategorycznymi staje się nieistotne – linie papilarne u człowieka
dychotomiczne
cecha występuje lub nie, lecz na prawdopodobieństwo (ryzyko) wpływa wiele genów;
sama cecha w populacji nie ma rozkładu normalnego lecz czynniki ryzyka bada się
metodami genetyki ilościowej
próg
Futuyma (2008)
Jak oddzielić zmienność genetyczną
od środowiskowej?
jeżeli na wykształcenie cechy wpływa środowisko, nawet cecha bez zmienności genetycznej może mieć rozkład ciągły
dwie odmiany tytoniu, całkowicie wsobne, różniące się długością
korony kwiatu
w każdej odmianie wszystkie rośliny identyczne genetycznie –
tylko zmienność środowiskowa
F1 – wszystkie identyczne genetycznie – tylko zmienność środowiskowa
F2 i F3 – zmienność genetyczna i środowiskowa
Porównując rozkład cechy w takim układzie można określić jaka część
zmienności jest warunkowana genetycznie a jaka środowiskowo
Frankham i in. 2010
Analiza cech ilościowych
na podstawie fenotypu cechy ilościowej nie da się wnioskować o fenotypie bo:
różne genotypy mogą dać taki sam fenotyp
w różnych warunkach środowiskowych ten sam genotyp może dać różne fenotypy
liczba genów wpływających na wykształcenie danej cechy ilościowej jest zazwyczaj nieznana, czasem można ją szacować i z tych oszacowań wynika że jest znaczna
nawet gdyby podstawy genetyczne cechy ilościowej były znane, analizowanie ich metodami genetyki mendlowskiej byłoby bardzo trudne
dlatego do analizy stosuje się metodologię statystyczną, która nie wymaga znajomości podstaw genetycznych cechy
Statystyka dla cech ilościowych
parametry a ich oszacowania (estymaty)
2
n
2
wariancja ( , Var, V): miara zmienności
xi x
cechy – rozrzutu wartości wokół średniej Var x
i 1
0 ≤ Var < ∞
odchylenie standardowe (, SD) –
pierwiastek z wariancji, ma jednostkę taką SD x Var x
samą jak mierzona cecha; 0 ≤ SD < ∞
kowariancja (Cov): miara stopnia w jakim Cov x, y xy x y
wartości dwu cech zmieniają się razem; wartość zależy od skali pomiaru; –∞ < Cov < ∞
Cov < 0 – gdy wartość jednej cechy maleje, drugiej rośnie
Cov > 0 – gdy wartość jednej cechy rośnie, drugiej też rośnie
korelacja (r, Corr): kowariancja standaryzowana przez wariancje cech, pozwala porównywać
siłę związku statystycznego między cechami Cov x, y
mierzonymi na różnych skalach; ‐1 < r < 1
r
Var x Var y
Statystyka dla cech ilościowych
współczynnik nachylenia osi regresji,
Cov x, y
b
określa jak wartości x przewidują wartości y, Var x
lecz nie określa jak dużo jest rozrzutu wokół linii
równanie regresji: y = a + bx
b = 1
r = 1
a = 0
b < 1
r < 1
a > 0
b = 0
r = 0
a > 0
a
a
perfekcyjna zależność wyraźna zależność
x i y
x i y
brak zależności x i y
Komponenty zmienności fenotypowej
na wykształcenie cechy fenotypowej (P) wpływają zarówno genotyp (G), jak i środowisko (E): P = G + E
całkowitą wariancję fenotypową cechy (VP) można podzielić na dwa komponenty: genetyczny (VG) i środowiskowy (VE): VP = VG + V E + 2CovGE, gdy to samo środowisko CovGE=0
przykład z długością korony kwiatu tytoniu
VP1 48 VP 2 32 VF 1 46
VF 2 130.5
VP1 VP 2 VF 1 48 32 46
42
3
3
VG VE
VE
VF 2
VG VF 2 VE 130.5 42 88.5
VG 68%VP
Frankham i in. 2010
Komponenty zmienności genetycznej
wariancję genetyczną można dalej podzielić na trzy komponenty:
addytywną (VA) – wynikającą ze średniego (w danej populacji, przy danych częstościach alleli w populacji) efektu alleli, które ma osobnik
dominacji (VD) – wynikającą z interakcji między allelami w tym sam locus
epistazy (interakcji) (VI) – wynikającą z interakcji między allelami w różnych loci
efekty dominacji i epistazy nie dziedziczą się przy rozmnażaniu płciowym, ponieważ allele w locus przekazywane są przez osobnika potomstwu pojedynczo a rekombinacja rozbija sprzężenia między allelami w różnych loci
dziedziczy się jedynie efekt addytywny – średni efekt jaki dany allel wywiera na wykształcenie cechy w populacji charakteryzującej się
określonymi częstościami alleli
VG = VA + VD + VI
udział zmienności addytywnej w całkowitej zmienności fenotypowej to odziedziczalność w wąskim sensie (h2):
odziedziczalność w szerokim sensie H2 = VG/VP
h2
VA
VP
Szacowanie odziedziczalności
z regresji rodzice-potomstwo
h2 można oszacować z regresji średniej wartości cechy u potomstwa na:
średnią wartość cechy obojga rodziców: h2 = b
wartość cechy jednego z rodziców (zazwyczaj ojca – eliminacja efektów matczynych): h2 = 2b
korelacji wartości cechy między rodzeństwem, półrodzeństwem itd.
h2 = 1
0 < h2 < 1
h2 = 0
Odpowiedź na dobór
w warunkach hodowlanych możemy wybierać osobniki do rozrodu na podstawie wartości interesującej nas cechy
S – różnica selekcyjna:
różnica między średnią wartością
cechy w całej populacji
osobniki
Pokolenie rodziców
wybrane
a średnią osobników wybranych
do rozrodu
do rozrodu
R – odpowiedź na dobór
S
przesunięcie się średniej
w potomstwie w stosunku do Pokolenie dzieci
średniej z całej populacji w poprzednim pokoleniu
R
h
S
2
jeżeli cecha odpowiada na dobór to jest odziedziczalna
R
Odziedziczalność różnych cech
odziedziczalność nie jest stała, może zmieniać się z pokolenia na pokolenie, gdy zmieniają się częstości alleli lub zmienność
środowiska
mówienie o odziedziczalności ma sens w konkretnej populacji
zazwyczaj cechy morfologiczne mają wysoką odziedziczalność a cechy wpływające na dostosowanie niską
Cechy związane z dostosowaniem
Człowiek, zwierzęta domowe i laboratoryne
Zwierzęta (bez Drosophila)
Drosophila
Rośliny
h2 (%)
Inne cechy w tym Rozmiary
morfologiczne
11
50
48
Cechy historii życiowych
Zachowanie
Cechy fizjologiczne
Cechy morfologiczne
26
30
33
46
12
18
‐
43
32
23‐39
Odziedziczalność różnych cech
Dobór sztuczny
dobór można prowadzić na większość cech ilościowych, ale nie wszystkie
prowadząc dobór sztuczny możemy selekcjonować dowolną cechę, dobór naturalny selekcjonuje dostosowanie
odpowiedź selekcyjną uzyskuje się przez długi czas
sukces eksperymentów odwracających kierunek doboru wskazuje
że zmienność mimo doboru
Dobór na zawartość oleju utrzymuje się długo
w ziarnach kukurydzy
gdy zaprzestaniemy doboru
wartość cechy często
zmienia się w kierunku
wartości wyjściowych –
antagonizm dobór naturalny‐
dobór sztuczny
Moose i in. 2004
Brak reakcji na zaprzestanie doboru
po zaprzestaniu doboru
na szybkość lotu u Drosophila
po >20 pokoleniach bez doboru szybkość nie spadła
możliwe wyjaśnienia
w wyniku doboru wyczerpanie zmienności (w tym przypadku można wykluczyć)
cecha nie wpływa na dostosowanie –
koszt jest znikomy
Weber 1996
Odpowiedź na dobór
siła i szybkość odpowiedzi na dobór zależy od addytywnej wariancji genetycznej w populacji – analogia z jednogenowymi modelami doboru
adaptacja ze zmienności istniejącej w populacji (standing genetic variation) jest szybsza
ponieważ liczba genów warunkujących cechy ilościowe jest znaczna, a mutacje mogą zachodzić w nich wszystkich (duży cel mutacyjny), to nowopowstające mutacje mogą mieć znaczenie w ewolucji cech ilościowych pod wpływem doboru
niezerowa odziedziczalność większości cech wskazuje że dobór nie wyczerpuje w populacjach zmienności addytywnej cech ilościowych
Wpływ mutacji na zmienność
cech ilościowych
Granice doboru
odpowiedź na dobór kierunkowy maleje i w końcu zanika bo:
wyczerpie się zmienność
dobór naturalny przeciwdziała doborowi sztucznemu
Odpowiedź na dobór i granice doboru u myszy
Cecha
Masa (szczep 1)
Masa (szczep 2)
Tempo wzrostu
Liczebność miotu
Kierunek doboru
w górę
w dół
w górę
w dół
w górę
w dół
w górę
w dół
Całkowita odpowiedź
3.4P
5.6P
3.9P
3.6P
2.0P
4.5P
1.2P
0.5P
Czas do połowy całkowitej odpowiedzi
0.6Ne
0.6Ne
0.2Ne
0.4Ne
0.3Ne
0.5Ne
0.5Ne
0.5Ne
P – fenotypowe odchylenie standardowe w populacji wyjściowej
Norma reakcji
zespół fenotypów w zależności od środowiska
genotyp1
genotyp2
brak interakcji
genotyp‐
środowisko
genotyp1
genotyp2
interakcja
genotyp‐
środowisko
Frankham i in. 2010
Korelacja genetyczna
i skorelowana odpowiedź
korelacje między cechami to korelacje fenotypowe – mogą
wynikać z:
korelacji środowiskowych
korelacji genetycznych
korelacje genetyczne mogą wynikać z:
nierównowagi sprzężeń
plejotropii – wpływu genu na więcej niż jedną cechę
korelacje genetyczne mogą ewoluować
wpływ korelacji genetycznych na ewolucje cech może być złożony
Futuyma 2008
Liczba genów wpływających na cechy
ilościowe i rozkład ich efektów
mimo że na cechę ilościową często wpływa wiele genów, ich efekty
rzadko są takie same
często obok kilku genów o dużym efekcie występuje wiele genów o niewielkich efektach (rozkład wykładniczy)
Mapowanie cech ilościowych - QTL
Chcemy zidentyfikować loci odpowiedzialne za zmienność cechy ilościowej – loci cech ilościowych (Quantitative Trait Loci, QTL)
Musimy dysponować gęstą mapą genetyczną, najczęściej opartą na mikrosatelitach
Barton i in. 2007
Prowadzimy dobór na określoną cechę i sprawdzamy jak na wartość
cechy wpływają określone fragmenty chromosomów
Mapowanie cech ilościowych - QTL
kształt skrzydła u Drosophila
Barton i in. 2007
Mapowanie cech ilościowych - QTL
Analiza QTL ma liczne ograniczenia
nie wykrywa loci o małych efektach
zawyża efekty loci o dużych efektach
ma ograniczoną rozdzielczość ok. 20 cM ~ 20 mln bp, samo tempo rekombinacji stanowi ograniczenie, w znalezionym regionie może być wiele genów
Badanie korelacji między cechą a markerami genetycznymi w populacji może pomóc ustalić
architekturę genetyczną złożonych cech – badania asocjacyjne w populacjach
mapowanie nierównowagi sprzężeń (linkage disequilibrium mapping)
badania asocjacyjne w skali całego genomu (genome‐wide association studies)
Genetyka populacyjna człowieka
Ile zmienności występuje w gatunku Homo sapiens?
Jak bardzo ludzie różnią
się genetycznie?
Jak ta zmienność jest rozmieszczona geograficznie?
Jak się ma zmienność
genetyczna do zmienności fenotypowej?
Jak zmienność wpływa na zapadalność na choroby, reakcje na leki?
Modele ewolucji
człowieka współczesnego
Stoneking 2008
u człowieka i najbliższych krewnych
na chromosomie X
(Kaessmann i in. 2001)
z 50 niekodujących fragmentów autosomalnych (Yu i in. 2004)
człowiek
0.0007
0.0009
szympans
0.0021
0.0013
b.d.
0.0008
goryl
0.0014
0.0016
orangutan
0.0024
b.d.
bonobo
Zmienność u człowieka najniższa wśród dużych małp,
średnie z porównania całych genomów ok. 0.0008
Największa zmienność w Afryce
Różnice sekwencji między dwoma losowo wybranymi Afrykańczykami Khoisa z Namibii są większe niż między mieszkańcami Europy i Azji wschodniej
Różnice genetyczne między populacjami afrykańskimi są
większe niż średnie różnice między Afrykańczykami a mieszkańcami Eurazji
Allele znajdowane poza Afryką są zazwyczaj podzbiorem
tych znajdowanych w Afryce
Allele specyficzne dla kontynentów są w ogóle rzadkie, lecz zdecydowanie najczęstsze w Afryce
Zróżnicowanie międzypopulacyjne
Barbujani & Colonna 2010
FST 0.05 – 0.15 w zależności od źródła (różne populacje, różne markery genetyczne)
FST u szympansa 0.32, u goryla 0.38 mimo ich znacznie mniejszego zasięgu geograficznego
Niskie zróżnicowanie międzypopulacyjne człowieka
Zróżnicowanie międzypopulacyjne
Badamy populacje autochtoniczne, tradycyjne, a nie np. populacje z wielkich miast zachodu
Zróżnicowanie genetyczne między populacjami ludzkimi wzrasta wraz z odległością geograficzną (mierzoną
według prawdopodobnych dróg migracji) – odległość
geograficzna wyjaśnia ¾ zróżnicowania genetycznego
Zmienność genetyczna spada wraz ze wzrostem odległości populacji od Afryki
Również zmienność morfologiczna (np. cechy kraniometryczne) spada wraz ze wzrostem odległości populacji od Afryki
Nierównowaga sprzężeń w genomie wzrasta wraz z odległością od Afryki
Nierównowaga sprzężeń wzrasta
wraz z odległością od Afryki
Novembre & Ramachandran 2011
Pokrewieństwa ludzkich mtDNA
van Oven & Kayser 2009
Mitochondrialna Ewa
Czas koalescencji ludzkiego mtDNA
to ok. 150 ‐ 200 tys. lat
Mitochondrialna Ewa – jedna kobieta z wielu, które żyły wtedy w populacji ludzkiej (mtDNA MRCA)
Również nierekombinującą część
chromosomu Y można wyprowadzić
od jednego mężczyzny który żył w Afryce 60 – 90 tys. lat temu
Czas koalescencji będzie różny dla różnych genów jądrowych, zazwyczaj dłuższy niż dla mtDNA i chromosomu Y
Nie ma sensu mówić o Adamie i Ewie dla genomu jądrowego
Out-of-Africa
Współczesne populacje ludzkie na całym świecie wywodzą się z Afryki
Migracja miała miejsce <100 tys. lat temu, prawdopodobnie 40 – 70 tys. lat temu
Ne grupy emigrantów 60 – 1200 Migracje człowieka
Migracje człowieka
Novembre & Ramachandran 2011
Migracje człowieka
Stoneking 2011
Hybrydyzacja z neandertalczykami i Devisowianami – ślady w populacjach pozaafrykańskich, < 5% genomu
Historia migracji populacji ludzkich
zapisana w genach bakterii
Moodley i in. 2009
Statystyczna ocena
modeli ewolucji człowieka
3 scenariusze
A. Zastąpienie
B. Asymilacja
C. Multiregionalny
Dla każdego scenariusza testowano różne modele demograficzne
Fagundes i in. 2007
Ewolucja różnorodności genetycznej
>60 kya
>60 kya
60 kya
40 kya
Współcześnie zróżnicowanie między
kontynentami nie przekracza 10%
30 kya
Barbujani & Colonna 2010
Genetycznie wyróżnialne populacje ludzkie
Duża liczba markerów, ludzi, populacji
Różne badania pokazują różne grupowanie – co wynika z ogólnie niewielkiego zróżnicowania
Metody filogenetyczne, Structure i metody analizy wielowymiarowej
938 ludzi, 51 populacji, 650 000 SNP
Li i in. 2008
Zróżnicowanie genetyczne w Afryce
Zróżnicowanie genetyczne w Afryce bardzo duże, lecz także dużo admiksji
spowodowanej migracjami w obrębie kontynentu
Dane oparte na zmienności > 1300 mikrosatelitów
Tishkoff i in. 2009
Zróżnicowanie genetyczne w Europie
500 tys. SNP
Novembre i in. 2008
Zróżnicowanie między Europejczykami ma komponent geograficzny
ale pierwsze dwie główne składowe (PC) wyjaśniają jedynie 0.45% zmienności
International HapMap Project
http://hapmap.ncbi.nlm.nih.gov/
www.1000genomes.org