Naukowcy przeanalizowali 2,5 mln prac i preprintów, aby oszacować skalę fałszywych cytowań generowanych przez narzędzia sztucznej inteligencji.
Z badania opisanego przez „Nature” i Phys.org wynika, że tylko w materiałach opublikowanych w 2025 roku znalazły się 146 932 halucynowane cytowania. Analiza została opublikowana jako preprint w serwisie arXiv i nie przeszła jeszcze recenzji naukowej.
Analiza objęła 111 mln przypisów w pracach i preprintach znajdujących się w dużych repozytoriach naukowych, w tym arXiv, bioRxiv, Social Science Research Network oraz PubMed Central. Autorzy badania sprawdzali tytuły cytowanych prac w bazach Semantic Scholar, OpenAlex i Google Scholar. Odniesienia, których nie udało się powiązać z istniejącymi publikacjami, oznaczano jako niedopasowane.
Jak wyjaśnił Yian Yin, adiunkt nauk informacyjnych na Uniwersytecie Cornella w Ithace w stanie Nowy Jork i współautor badania, impulsem do analizy było zauważenie odniesień do nieznanych prac, które miały być napisane przez autorów o znanym badaczom dorobku.
Badacze podkreślili, że błędy bibliograficzne występowały także przed upowszechnieniem sztucznej inteligencji. W analizie potraktowali więc 2022 rok jako cezurę związaną z publicznym udostępnieniem ChatGPT i sprawdzili, jak po tej dacie zmieniała się skala nieistniejących odniesień. Autorzy badania twierdzą, że po upowszechnieniu narzędzi opartych na dużych modelach językowych liczba takich cytowań gwałtownie wzrosła, zwłaszcza od 2024 roku.
Najwyższy odsetek halucynowanych cytowań wykryto w bazie SSRN, która gromadzi głównie preprinty z zakresu nauk społecznych. Według autorów badania niemal 2 proc. cytowań w pracach zamieszczonych tam do sierpnia 2025 roku uznano za halucynacje. Był to wynik prawie pięciokrotnie wyższy niż w innych dużych repozytoriach.
Drugie miejsce zajęło arXiv, gdzie odsetek błędnych lub nieistniejących odniesień wyniósł 0,39 proc. W PubMed Central, bazie obejmującej publikacje z obszaru biomedycyny, wskaźnik ten wyniósł 0,27 proc., a w bioRxiv, specjalizującym się w naukach biologicznych, 0,21 proc.
„Byliśmy naprawdę zdumieni ogólną skalą i dynamiką całego zbioru halucynowanych cytowań” — powiedział Yin.
Z ustaleń autorów wynika, że fałszywe cytowania częściej pojawiały się w pracach badaczy z niewielkim dorobkiem publikacyjnym sprzed 2022 roku oraz w tekstach przygotowanych przez małe zespoły. Jeśli takie fałszywe odniesienia występowały, nieproporcjonalnie często przypisywały dorobek uznanym i wysoko cytowanym autorom, częściej mężczyznom. Ponadto produktywność mało doświadczonych zespołów wzrosła.
Autorzy badania ostrzegają, że halucynowane cytowania na dużą skalę przenikają do obiegu wiedzy naukowej, osłabiając jej rzetelność i zaburzając sposób przypisywania dorobku. Ich zdaniem bez reakcji problem może wpływać nie tylko na przyszłe odkrycia naukowe, lecz także na decyzje publiczne i społeczne rozumienie badań.
Czytaj też:
Język polski najłatwiejszy dla sztucznej inteligencji. Angielski poza czołówką
Polska stara się o gigafabrykę AI za 3 mld euro. „Moc obliczeniowa to nowa ropa naftowa”



_02.jpg)



























