Najnowsze testy wykazały, że niemal połowa odpowiedzi chatbotów w języku polskim zawiera istotne błędy, część ma problemy ze źródłami, a inne zawierały całkowicie nieprawdziwe informacje. Wyniki replikacji pokryły się z ustaleniami międzynarodowego badania koordynowanego przez BBC i EBU w 18 krajach.

13 stycznia spółka Polskie Badania Czytelnictwa opublikowała wyniki polskiej replikacji międzynarodowych badań koordynowanych przez BBC i Europejską Unię Nadawców. W testach sprawdzono najpopularniejsze chatboty, w tym ChatGPT, Gemini i Perplexity, pod kątem dokładności odpowiedzi, korzystania ze źródeł oraz występowania fałszywych lub wprowadzających w błąd informacji przedstawianych jako fakty.

W badaniu polskim przeprowadzono po 60 zapytań w każdym z trzech modeli. Według opublikowanych wyników co najmniej jeden istotny błąd odnotowano w 46 proc. odpowiedzi generowanych w języku polskim. W 27 proc. przypadków wskazano poważne problemy ze źródłami, a 19 proc. odpowiedzi miało poważne braki w dokładności lub zawierało informacje wprost nieprawdziwe.

Czytaj również: Polacy boją się treści z AI, ale chętnie z niej korzystają

Polskie rezultaty zestawiono z wynikami międzynarodowego testu prowadzonego z udziałem organizacji z 18 krajów, komunikujących się w 14 językach. Profesjonalni dziennikarze ocenili łącznie blisko 3 tys. odpowiedzi serwisów ChatGPT, Copilot, Gemini i Perplexity, analizując m.in. dokładność, jakość odniesień do źródeł, rozróżnianie opinii i faktów oraz kontekst odpowiedzi. W ujęciu międzynarodowym niemal połowa odpowiedzi zawierała co najmniej jeden błąd, a odsetek ten wyniósł 45 proc. Z kolei w zakresie źródeł wskazano, że prawie jedna trzecia odpowiedzi miała niepoprawnie podane źródła lub ich brak, co oszacowano na 31 proc., a co piąta odpowiedź była nieprawidłowa lub zawierała poważne błędy w dokładności, co określono na 20 proc.

Najgorzej w testach wypadł Gemini, a halucynacje i niedokładne informacje wyłapywano najczęściej w ChatGPT.

Może Cię zainteresować: Brzoska gotów wyłożyć 100 milionów euro na polską gigafabrykę AI

„Błędy są na tyle poważne, że mogą zagrażać reputacji cytowanych mediów. Odniesienie do znanej redakcji czy dziennikarza uwiarygadnia odpowiedź AI, która często nie jest rzetelna” — zaznaczyła prezes Polskich Badań Czytelnictwa Renata Krzewska.

Jednocześnie w materiałach podkreślono, że narzędzia oparte na sztucznej inteligencji mogą wspierać pracę redakcji, ale nie zastępują dziennikarskiej odpowiedzialności, weryfikacji i rozumienia kontekstu. „To człowiek – dziennikarz – czyni prasę wiarygodną. Tych cech algorytmy nie są w stanie zastąpić” — podsumował przedstawiciel Polska Press Mariusz Ulewak.

W przytoczonych danych odwołano się również do Digital News Report Instytutu Reutersa z 2025 roku, według którego 7 proc. odbiorców wiadomości online celowo korzysta z asystentów AI, a w grupie osób poniżej 25. roku życia odsetek ten wynosi 15 proc.

Zobacz: Język polski najłatwiejszy dla sztucznej inteligencji. Angielski poza czołówką

Kresy.pl/Press.pl

Tagi:
forma płatności