Badanie: nawet 50 proc. odpowiedzi chatbotów w sprawach medycznych zawiera błędy

Badania opublikowane w piśmie „BMJ Open” wskazują, że popularne chatboty AI wciąż nie powinny być traktowane jako samodzielne źródło porad i informacji medycznych.

Zespół siedmiu badaczy przetestował pięć narzędzi: ChatGPT, Gemini, Grok, Meta AI i DeepSeek, zadając im łącznie 250 pytań dotyczących m.in. nowotworów, szczepionek, komórek macierzystych, żywienia i wyników sportowych.

Każdą odpowiedź oceniali niezależnie dwaj eksperci. Według autorów prawie 20 proc. odpowiedzi było „wysoce problematycznych”, połowa „problematyczna”, a 30 proc. „częściowo problematyczna”. Żaden z chatbotów nie generował konsekwentnie w pełni poprawnych list źródeł, a odmowa odpowiedzi pojawiła się tylko w dwóch z 250 przypadków.

Najwięcej odpowiedzi uznanych za wysoce problematyczne wygenerował Grok — 58 proc. W przypadku ChatGPT było to 52 proc. Gemini popełniał najmniej błędów i jednocześnie udzielał najwięcej odpowiedzi niebudzących zastrzeżeń. Różnice między systemami nie zmieniły jednak ogólnego wniosku: wszystkie narzędzia miały trudność z odróżnianiem rzetelnej wiedzy od treści niepotwierdzonych lub mylących.

Najlepiej chatboty radziły sobie z pytaniami o szczepionki i nowotwory, czyli obszary dobrze opisane w literaturze naukowej. Nawet tam jednak ok. jedna czwarta odpowiedzi została oceniona jako problematyczna. Najwięcej błędów pojawiało się przy żywieniu i poprawie wyników sportowych, gdzie w internecie krąży wiele sprzecznych porad.

Szczególnie ryzykowne okazały się pytania otwarte. W tej grupie 32 proc. odpowiedzi oceniono jako wysoce problematyczne, wobec 7 proc. w przypadku pytań zamkniętych. To istotne, ponieważ użytkownicy zwykle nie formułują zapytań w formie testu, lecz proszą o wskazówki, np. dotyczące suplementów lub alternatywnych metod leczenia.

Badacze wskazali również na problem pozornego uwiarygodniania odpowiedzi. Gdy chatboty proszono o podanie dziesięciu publikacji naukowych, kompletność takich list wynosiła średnio tylko 40 proc. W praktyce oznaczało to liczne błędy: od wskazywania nieistniejących prac, przez błędnie przypisanych autorów, po niedziałające odnośniki.

Autorzy podkreślają, że modele językowe nie oceniają dowodów w sposób właściwy dla praktyki medycznej. Przewidują kolejne słowa na podstawie danych treningowych, w których znajdują się zarówno publikacje naukowe, jak i fora internetowe, blogi czy media społecznościowe.

Diagnostyka AI wiąże się także z innymi ograniczeniami. Po pierwsze, problem dotyczy interakcji człowiek–AI. Analiza opublikowana w „Nature Medicine” wskazuje, że modele często generują poprawne odpowiedzi, jednak użytkownicy nie zawsze potrafią je właściwie zinterpretować lub zastosować.

Skuteczność AI zależy też od jakości danych wejściowych. Badanie w „JAMA Network Open” wykazało, że przy ograniczonych informacjach modele często nie wskazują właściwych rozpoznań, natomiast po uzupełnieniu o wyniki badań ich trafność wyraźnie rośnie.

W praktyce oznacza to, że AI może sprawiać wrażenie eksperta, ale nie przejmuje jego roli — ciężar interpretacji i decyzji pozostaje po stronie użytkownika.

Wniosek z badań jest praktyczny: AI może pomóc przygotować pytania do lekarza albo uporządkować informacje, ale nie powinna zastępować diagnozy, konsultacji ani weryfikacji źródeł.

Czytaj też:

Polacy boją się treści z AI, ale chętnie z niej korzystają

Orlen i Google Cloud rozwijają współpracę w zakresie sztucznej inteligencji

Kresy.pl / The Conversation

Tagi: , ,
forma płatności