Badanie: nawet 50 proc. odpowiedzi chatbotów w sprawach medycznych zawiera błędy

Badania opublikowane w piśmie „BMJ Open” wskazują, że popularne chatboty AI wciąż nie powinny być traktowane jako samodzielne źródło porad i informacji medycznych.

Newsletter Skomentuj Udostępnij Wyłącz reklamy

Zespół siedmiu badaczy przetestował pięć narzędzi: ChatGPT, Gemini, Grok, Meta AI i DeepSeek, zadając im łącznie 250 pytań dotyczących m.in. nowotworów, szczepionek, komórek macierzystych, żywienia i wyników sportowych.

Każdą odpowiedź oceniali niezależnie dwaj eksperci. Według autorów prawie 20 proc. odpowiedzi było „wysoce problematycznych”, połowa „problematyczna”, a 30 proc. „częściowo problematyczna”. Żaden z chatbotów nie generował konsekwentnie w pełni poprawnych list źródeł, a odmowa odpowiedzi pojawiła się tylko w dwóch z 250 przypadków.

Najwięcej odpowiedzi uznanych za wysoce problematyczne wygenerował Grok — 58 proc. W przypadku ChatGPT było to 52 proc. Gemini popełniał najmniej błędów i jednocześnie udzielał najwięcej odpowiedzi niebudzących zastrzeżeń. Różnice między systemami nie zmieniły jednak ogólnego wniosku: wszystkie narzędzia miały trudność z odróżnianiem rzetelnej wiedzy od treści niepotwierdzonych lub mylących.

Najlepiej chatboty radziły sobie z pytaniami o szczepionki i nowotwory, czyli obszary dobrze opisane w literaturze naukowej. Nawet tam jednak ok. jedna czwarta odpowiedzi została oceniona jako problematyczna. Najwięcej błędów pojawiało się przy żywieniu i poprawie wyników sportowych, gdzie w internecie krąży wiele sprzecznych porad.

Szczególnie ryzykowne okazały się pytania otwarte. W tej grupie 32 proc. odpowiedzi oceniono jako wysoce problematyczne, wobec 7 proc. w przypadku pytań zamkniętych. To istotne, ponieważ użytkownicy zwykle nie formułują zapytań w formie testu, lecz proszą o wskazówki, np. dotyczące suplementów lub alternatywnych metod leczenia.

Badacze wskazali również na problem pozornego uwiarygodniania odpowiedzi. Gdy chatboty proszono o podanie dziesięciu publikacji naukowych, kompletność takich list wynosiła średnio tylko 40 proc. W praktyce oznaczało to liczne błędy: od wskazywania nieistniejących prac, przez błędnie przypisanych autorów, po niedziałające odnośniki.

Jesteśmy najbardziej rzetelnymi mediami w Polsce

Autorzy podkreślają, że modele językowe nie oceniają dowodów w sposób właściwy dla praktyki medycznej. Przewidują kolejne słowa na podstawie danych treningowych, w których znajdują się zarówno publikacje naukowe, jak i fora internetowe, blogi czy media społecznościowe.

Diagnostyka AI wiąże się także z innymi ograniczeniami. Po pierwsze, problem dotyczy interakcji człowiek–AI. Analiza opublikowana w „Nature Medicine” wskazuje, że modele często generują poprawne odpowiedzi, jednak użytkownicy nie zawsze potrafią je właściwie zinterpretować lub zastosować.

Skuteczność AI zależy też od jakości danych wejściowych. Badanie w „JAMA Network Open” wykazało, że przy ograniczonych informacjach modele często nie wskazują właściwych rozpoznań, natomiast po uzupełnieniu o wyniki badań ich trafność wyraźnie rośnie.

W praktyce oznacza to, że AI może sprawiać wrażenie eksperta, ale nie przejmuje jego roli — ciężar interpretacji i decyzji pozostaje po stronie użytkownika.

Wniosek z badań jest praktyczny: AI może pomóc przygotować pytania do lekarza albo uporządkować informacje, ale nie powinna zastępować diagnozy, konsultacji ani weryfikacji źródeł.

Czytaj też:

Polacy boją się treści z AI, ale chętnie z niej korzystają

Orlen i Google Cloud rozwijają współpracę w zakresie sztucznej inteligencji

Kresy.pl / The Conversation

Żyją w Polsce, podatki płacą na Ukrainie. Fiskus może upomnieć się o zaległości

Zełenski twierdzi, że Ukraina może produkować więcej zaawansowanej broni niż Rosja

Polskie pociski do Patriotów trafiły na Ukrainę? Według Boguckiego prezydent mógł nie zostać poinformowany

Sześciu cudzoziemców zatrzymanych po nielegalnym przekroczeniu granicy z Litwą

Matka Boża Kodeńska. Obraz, który wrócił z wygnania i stał się znakiem jedności

Hiszpania ogranicza współpracę z Palantirem. W tle obawy o bezpieczeństwo narodowe

Sikorski ostrzega Putina: Wiemy, co planujesz, nie rób tego

Starcia w Jemenie mogą zapowiadać eskalację wojny domowej

Trzaskowski podważa wiarygodność sygnalisty ze Szpitala Południowego. „Rewelacje jednego lekarza”

IPN: Na początku lat dwudziestych ofiarami terroru ukraińskich nacjonalistów byli głównie Ukraińcy

USA świętują 250-lecie niepodległości. Obchodom towarzyszą upały i spór o historię

Ukraińcy twierdzą, że Rosja opublikuje „fałszywki” o Wołyniu

Myśliwiec GCAP 6. generacji coraz bliżej. Demonstrator ma wzbić się w powietrze do końca 2027 roku

PESA przejmuje niemieckiego producenta tramwajów

Miliony żegnały najwyższego przywódcę Iranu zabitego przez Amerykanów [+VIDEO]

W Gorzowie powstanie fabryka rakiet do systemów HOMAR-K

Rakiety do Patriotów i miejsce w kolejce dla Ukrainy? Przydacz mówi o „bardzo prawdopodobnej” decyzji rządu

Bank na broń i obronność. Kanada chce zebrać 133 miliardy dolarów

Turcy opracowali nową amunicję przeciwdronową. Ma działać ze zwykłej broni piechoty [+VIDEO]

Węgry cofnęły status uchodźcy Ziobrze, Romanowskiemu i Koteckiej-Ziobro

Putin zadzwonił do Trumpa – zadeklarował zdobycie kolejnego miasta Donbasu

Rosyjski „Starlink” już z awarią. Jeden z pierwszych satelitów spadł z orbity

Kaczyński kiedyś chciał wybaczać Rzeź Wołyńską. Teraz: Ukraina z kultem Bandery nie wejdzie do UE

Polski miliarder chce zbudować 14 reaktorów jądrowych w Wielkiej Brytanii

Żyją w Polsce, podatki płacą na Ukrainie. Fiskus może upomnieć się o zaległości

Nagi obywatel Kolumbii uszkadzał auta i groził ratowniczce. Policja chce jego deportacji

W Gorzowie powstanie fabryka rakiet do systemów HOMAR-K

Sikorski ostrzega Putina: Wiemy, co planujesz, nie rób tego

The Insider: niemieckie narzędzia w rosyjskich zakładach zbrojeniowych mimo wojny

Matka Boża Kodeńska. Obraz, który wrócił z wygnania i stał się znakiem jedności

Zobacz także

Wspieraj Kresy i czytaj bez reklam.1 zł = 1 dzień dostępu.

Wspieraj Kresy i czytaj bez reklam.
1 zł = 1 dzień dostępu.