Ekstrakcja wiedzy
z Polskiego Rejestru Wrodzonych
Wad Rozwojowych
Izabela Brzezińska
Polski Rejestr Wrodzonych
Wad Rozwojowych (PRWWR)
PRWWR działa od 1997r. jako projekt
Ministerstwa Zdrowia i Opieki Społecznej
Obejmuje 74% powierzchni Polski, 72% populacji
Ponad 32 000 wpisów dzieci z wrodzonymi
wadami rozwojowymi
Od 2001 r. członek EUROCAT’u- zrzeszania
rejestrów europejskich
2
Zbiór danych do analizy
Zbiór 867 dzieci z zespołem Downa, spośród których 290 ma
wrodzoną wadę serca
10 atrybutów warunkowych
(np. masa urodzen., wiek płodowy, kariotyp, itd.)
1 atrybut decyzyjny (wada_serca={tak, nie})
Problemy: brakujące wartości, niespójności
Jakie czynniki wpływają na występowanie wrodzonych wad serca
wśród dzieci z zespołem Downa?
3
Etapy procesu odkrywania wiedzy
Identyfikacja dziedziny problemu,
wybór/tworzenie docelowych danych,
wstępne przetwarzanie danych,
wybór zadania i algorytmów odkrywania wiedzy,
pozyskiwanie wiedzy z danych,
interpretacja i ocena wyników poszukiwań.
4
Wstępne przetwarzanie danych
Usunięcie duplikatów
Identyfikacja obserwacji nietypowych
Dyskretyzacja atrybutów ciągłych
Uwzględnianie nieznanych wartości
5
Wybrana metoda analizy danych
Teoria zbiorów przybliżonych jako
narzędzie do uwzględniania niespójności
mogącej być wynikiem granularności
dostępnej informacji,
Narzędzie: ROSE 2.0, algorytm Explore,
indukcji satysfakcjonującego zbioru reguł,
6
Wyniki
Wada_serca=nie
Wada_serca=tak
Liczba reguł
31
4
Min. confidence
[%]
75
75
Min. strength [%]
7
2
Jakość
klasyfikacji w
klasach [%]
98,18
(+-2,24)
1,27
(+-1,08)
Średnia jakość
klasyfikacji [%]
65,64 (+-6,41)
7
Inne metody
Instance based learning (IBL1-3),
Indukcja drzew decyzyjnych (C4.5),
Regresja logistyczna (Statistica 6.0)
8
Porównanie wyników różnych metod
Średnia
Jakość klasyfikacji w
jakość
klasie
klasyfikacji[%]
wada_serca=nie
Jakość klasyfikacji
w klasie
wada_serca=tak
Rough sets
65,64
(+-6,41)
98,18
(+-2,24)
1,27
(+-1,08)
IBL1
64,50
(+-1,34)
96,53
(+-2,24)
0,69
(+-0,58)
C4.5 przed
przycięciem
72,60
(+-1,40)
98,90
(+-1,91)
20,69
(+-1,20)
C4.5 po
przycięciu
66,60
(+-0,00)
100,00
(+-0,00)
0,00
(+-0,00)
Regresja
logistyczna
67,24
(+-1,24)
99,13
(+-1,43)
3,79
(+-1,01)
9
Dodatkowe eksperymenty
Selekcja - w celu zrównoważenia
liczności obu klas decyzyjnych
Projekcja
– 9 atrybutów warunkowych
– 8 atrybutów warunkowych
10
Kierunki dalszych badań
Rozszerzenie analizy na zbiór z atrybutem decyzyjnym
wskazującym rodzaj/skalę wady serca,
Ekstrakcja wiedzy z innych obszarów Rejestru,
Zastosowanie innych podejść ekstrakcji wiedzy, np.sieci
neuronowe, podejścia biorące pod uwagę
uporządkowanie dziedzin atrybutów według preferencji,
Analiza skalowalności wybranych metod ekstrakcji
wiedzy.
11