„Całkiem mądry Naiwny Bayes” – felieton-- Serwis Akademii Górniczo-Hutniczej

„Całkiem mądry Naiwny Bayes” – felieton

10/11/2023

Wśród wielu metod sztucznej inteligencji, których same nazwy raczej mogą przestraszyć mniej doświadczonego czytelnika (na przykład „konwolucyjne sieci głębokiego uczenia”) – pozytywnie wyróżnia nazwa Naiwny Bayes. Nie wiem, jak Państwo sądzicie – ale dla mnie miała ona brzmienie sympatyczne, więc jak budowałem (jeszcze w latach 70) pierwsze programy komputerowe, które miały wspomagać lekarzy w diagnozowaniu pewnych chorób (konkretnie neuroinfekcji) to właśnie użyłem metody Naiwnego Bayesa.

Na czym polega ta metoda?

Otóż mając komputerowo rozpoznać na przykład to, jaka choroba Y dręczy diagnozowanego właśnie pacjenta – można najpierw skorzystać z wiedzy na temat tego, jak bardzo różne choroby są prawdopodobne. Na przykład jeśli pacjent uskarża się na dolegliwości górnych dróg oddechowych, to może to być zwykłe przeziębienie (Y₁) albo pospolity katar (Y₂), ale może to być także angina (Y₃), grypa (Y₄) albo COVID (Y₅). Te prawdopodobieństwa a’priori oznaczamy jako p(Y_j). Dobrze jest przy tym wiedzieć, które choroby są w tym sezonie i w tej części kraju bardziej prawdopodobne, a które mniej. Lekarze w swoich działaniach bardzo często posługują się statystyką, więc tego rodzaju dane są zwykle łatwo dostępne.

Trudniejsze do zdobycia, ale zwykle także osiągalne są dane na temat rozkładu prawdopodobieństwa warunkowego występowania konkretnych symptomów X_iw grupie chorych na określoną chorobę Y_j. Można na przykład zbadać, jak często u chorych na grypę Y₄ występowała gorączka o wartości X₁ między 36,6 i 37,5 stopnia, ilu miało temperaturę X₂ od 37,5 do 38,5 stopnia, a u ilu wystąpiła temperatura jeszcze wyższa X3. Oczywiście badanych symptomów jest dużo, więc u chorych z zaburzeniami trawienia można policzyć, jak często występowała (jako jeden z objawów) biegunka, a u chorych z zaburzeniami krążenia ustalić, jakie były obserwowane wartości ciśnienia krwi i jak często występowały. Oczywiście żeby te dane były wiarygodne, powinny być zdobyte poprzez dużą liczbę obserwacji (bo tylko wtedy mając informację o tym, jakie są procenty pacjentów u których zaobserwowano poszczególne wartości objawów, możemy twierdzić, że te procenty dobrze przybliżają prawdopodobieństwa). Ale – jak wspomniałem – jest to osiągalne.

Mając informacje na temat prawdopodobieństw a’priori poszczególnych chorób p(Y_j) oraz prawdopodobieństw warunkowych występowania różnych symptomów X_i przy poszczególnych chorobach Y_j p(X_i/Y_i) możemy przystąpić do wyznaczenia tak zwanego prawdopodobieństwa a‘posteriori, czyli prawdopodobieństwa tego, że u danego pacjenta, którego symptomy ustaliliśmy, występuje taka a nie inna choroba Y_i. Oczywiście robi się to dla każdej „podejrzewanej” choroby.

Nad tym, jak wywnioskować prawdopodobieństwo a‘posteriori tego, że pacjent cierpi na chorobę Y_j na podstawie prawdopodobieństw a’priori wszystkich rozważanych chorób oraz prawdopodobieństw warunkowych określonego symptomu X_i we wszystkich tych chorobach głowił się angielski matematyk Thomas Bayes. Głowił się aż do końca swego życia (zmarł w 1761 roku), ale nie ośmielił się opublikować wyników swoich rozważań. Zrobił to po jego śmierci inny matematyk, Richard Price, publikując tak zwany wzór Bayesa.
W gazecie wzoru oczywiście przytoczyć nie mogę, ale można go znaleźć w Internecie. Jak się włoży trochę wysiłku to można zrozumieć, jak bardzo jest on sensowny i logiczny.

Ale dlaczego mówi się Naiwny Bayes?

Otóż naiwność wyraża się w przekonaniu, że poszczególne symptomy wykryte u pacjenta są całkiem niezależne. Wzór Bayesa pozwala ustalić prawdopodobieństwo występowania u pacjenta choroby Y_j na podstawie wartości jednego symptomu X_i. Potem możemy ponownie zastosować wzór Bayesa i ustalić prawdopodobieństwo występowania tej samej choroby Y_j na podstawie wartości innego symptomu X_k. Postępując tak ze wszystkimi symptomami i wszystkimi podejrzewanymi chorobami dostaniemy cały szereg przesłanek do decyzji – ale jeszcze nie decyzję jako taką.

Jeśli jednak założymy, że symptomy są statystycznie niezależne – to zgodnie z zasadami rachunku prawdopodobieństwa dla każdej choroby można pomnożyć przez siebie prawdopodobieństwa tej wystąpienia a’posteriori, ustalone wcześniej dla poszczególnych oddzielnych symptomów. Uzyskane wyniki są bardzo dobrą wskazówką na temat tego, na co cierpi badanych pacjent – po prostu wskazujemy tę chorobę, dla której ten wynik mnożenia jest największy. I to działa!

Skrócona wersja powyższego felietonu autorstwa prof. Ryszarda Tadeusiewicza została opublikowana w „Dzienniku Polskim” oraz „Gazecie Krakowskiej” 10.11.2023 r.

Wykaz wszystkich publikacji popularnonaukowych prof. Tadeusiewicza wraz z odnośnikami do ich pełnych wersji

Inne artykuły z kategorii Nauka

Najnowsze artykuły

„Całkiem mądry Naiwny Bayes” – felieton

Inne artykuły z kategorii Nauka

Najnowsze artykuły

Stopka