Badania opublikowane w piśmie „BMJ Open” wskazują, że popularne chatboty AI wciąż nie powinny być traktowane jako samodzielne źródło porad i informacji medycznych.
Zespół siedmiu badaczy przetestował pięć narzędzi: ChatGPT, Gemini, Grok, Meta AI i DeepSeek, zadając im łącznie 250 pytań dotyczących m.in. nowotworów, szczepionek, komórek macierzystych, żywienia i wyników sportowych.
Każdą odpowiedź oceniali niezależnie dwaj eksperci. Według autorów prawie 20 proc. odpowiedzi było „wysoce problematycznych”, połowa „problematyczna”, a 30 proc. „częściowo problematyczna”. Żaden z chatbotów nie generował konsekwentnie w pełni poprawnych list źródeł, a odmowa odpowiedzi pojawiła się tylko w dwóch z 250 przypadków.
Najwięcej odpowiedzi uznanych za wysoce problematyczne wygenerował Grok — 58 proc. W przypadku ChatGPT było to 52 proc. Gemini popełniał najmniej błędów i jednocześnie udzielał najwięcej odpowiedzi niebudzących zastrzeżeń. Różnice między systemami nie zmieniły jednak ogólnego wniosku: wszystkie narzędzia miały trudność z odróżnianiem rzetelnej wiedzy od treści niepotwierdzonych lub mylących.
Najlepiej chatboty radziły sobie z pytaniami o szczepionki i nowotwory, czyli obszary dobrze opisane w literaturze naukowej. Nawet tam jednak ok. jedna czwarta odpowiedzi została oceniona jako problematyczna. Najwięcej błędów pojawiało się przy żywieniu i poprawie wyników sportowych, gdzie w internecie krąży wiele sprzecznych porad.
Szczególnie ryzykowne okazały się pytania otwarte. W tej grupie 32 proc. odpowiedzi oceniono jako wysoce problematyczne, wobec 7 proc. w przypadku pytań zamkniętych. To istotne, ponieważ użytkownicy zwykle nie formułują zapytań w formie testu, lecz proszą o wskazówki, np. dotyczące suplementów lub alternatywnych metod leczenia.
Badacze wskazali również na problem pozornego uwiarygodniania odpowiedzi. Gdy chatboty proszono o podanie dziesięciu publikacji naukowych, kompletność takich list wynosiła średnio tylko 40 proc. W praktyce oznaczało to liczne błędy: od wskazywania nieistniejących prac, przez błędnie przypisanych autorów, po niedziałające odnośniki.
Autorzy podkreślają, że modele językowe nie oceniają dowodów w sposób właściwy dla praktyki medycznej. Przewidują kolejne słowa na podstawie danych treningowych, w których znajdują się zarówno publikacje naukowe, jak i fora internetowe, blogi czy media społecznościowe.
Diagnostyka AI wiąże się także z innymi ograniczeniami. Po pierwsze, problem dotyczy interakcji człowiek–AI. Analiza opublikowana w „Nature Medicine” wskazuje, że modele często generują poprawne odpowiedzi, jednak użytkownicy nie zawsze potrafią je właściwie zinterpretować lub zastosować.
Skuteczność AI zależy też od jakości danych wejściowych. Badanie w „JAMA Network Open” wykazało, że przy ograniczonych informacjach modele często nie wskazują właściwych rozpoznań, natomiast po uzupełnieniu o wyniki badań ich trafność wyraźnie rośnie.
W praktyce oznacza to, że AI może sprawiać wrażenie eksperta, ale nie przejmuje jego roli — ciężar interpretacji i decyzji pozostaje po stronie użytkownika.
Wniosek z badań jest praktyczny: AI może pomóc przygotować pytania do lekarza albo uporządkować informacje, ale nie powinna zastępować diagnozy, konsultacji ani weryfikacji źródeł.
Czytaj też:
Polacy boją się treści z AI, ale chętnie z niej korzystają
Orlen i Google Cloud rozwijają współpracę w zakresie sztucznej inteligencji
Kresy.pl / The Conversation
































