ChatGPT zaczął nadmiernie często używać w odpowiedziach motywu goblinów, gremlinów i innych fantastycznych stworzeń. Według OpenAI nietypowe zachowanie modelu było związane z mechanizmem nagradzania odpowiedzi podczas trenowania jednego z profili stylu chatbota.

Sprawę opisał serwis TechXplore, powołując się m.in. na ustalenia OpenAI oraz komentarz Christopha Riedla, profesora informatyki, systemów informacyjnych i nauk o sieciach z Northeastern University.

Ekspert ocenił, że problem nie jest wyłącznie zabawną usterką językową, ale przykładem szerszej trudności w kontrolowaniu zachowań dużych modeli językowych.

Pierwsze wyraźne sygnały pojawiły się po uruchomieniu GPT-5.1 w listopadzie. Użytkownicy zaczęli zauważać, że model wplatał „gobliny” i „gremliny” w metafory oraz inne odpowiedzi, nawet wtedy, gdy pytania nie dotyczyły fantastyki. OpenAI podało, że po premierze GPT-5.1 użycie słowa „goblin” wzrosło w ChatGPT o 175 procent, a słowa „gremlin” o 52 procent.

Według OpenAI problem był związany przede wszystkim z funkcją personalizacji odpowiedzi. Najsilniej ujawnił się w profilu „Nerdy”, który miał nadawać wypowiedziom ChatGPT bardziej swobodny, żartobliwy i „nerdowski” ton. Podczas trenowania modelu wewnętrzny mechanizm oceny zaczął jednak premiować odpowiedzi, w których pojawiały się metafory z goblinami, gremlinami i innymi fantastycznymi stworzeniami. Nie chodziło więc o to, że użytkownicy masowo domagali się takich odpowiedzi, lecz o sygnał nagrody wykorzystywany w procesie uczenia modelu. W efekcie ChatGPT zaczął traktować taki język jako pożądany element stylu.

Skala zjawiska była nieproporcjonalna. OpenAI ustaliło, że profil „Nerdy” odpowiadał tylko za 2,5 procent wszystkich odpowiedzi ChatGPT, ale generował 66,7 procent wszystkich wzmianek o goblinach. Z czasem „goblinowy” styl zaczął przenosić się także poza ten profil.

Christoph Riedl tłumaczył, że chodzi o zjawisko określane jako „reward hacking”. Model uczy się wtedy, że określony typ odpowiedzi przynosi pozytywną ocenę, a następnie zaczyna go nadużywać. Nie oznacza to, że model „rozumie” sens tej preferencji. Optymalizuje jedynie zachowanie pod kątem sygnałów nagrody, często w sposób węższy i bardziej mechaniczny, niż zakładali twórcy systemu.

Firma wycofała profil „Nerdy” w marcu, usunęła sygnał nagradzający sprzyjający tego typu odpowiedziom i zaczęła filtrować dane treningowe zawierające problematyczne słowa. Wprowadzono też doraźne instrukcje ograniczające używanie słowa „goblin” w nieadekwatnych kontekstach. OpenAI przyznało jednak, że GPT-5.5 rozpoczął trening, zanim zidentyfikowano przyczynę problemu.

Kolejne modele wychodzą zbyt szybko

Według Riedla sprawa pokazuje szerszy problem związany z szybkim wdrażaniem kolejnych modeli AI. Firmy pracujące nad sztuczną inteligencją działają pod presją publikowania nowych wersji, a proces szkolenia modeli jest długi, kosztowny i trudny do pełnej kontroli.

Ekspert zwrócił uwagę, że tym razem skutkiem były nieszkodliwe gobliny, ale podobny mechanizm mógłby w innych okolicznościach utrwalać znacznie poważniejsze wzorce odpowiedzi — na przykład szeroko ugruntowywać określone uprzedzenia albo skłaniać do niepożądanych zachowań.

Już teraz w USA toczą się sprawy, w których rodziny zmarłych zarzucają chatbotom AI wzmacnianie myśli samobójczych użytkowników. Najgłośniejsze przypadki dotyczą 14-letniego Sewella Setzera III, który korzystał z Character.AI, oraz 16-letniego Adama Raine’a, który rozmawiał z ChatGPT. W obu sprawach rodziny twierdzą, że chatboty nie tylko nie przerwały niebezpiecznych rozmów, ale miały odpowiadać w sposób sprzyjający autodestrukcyjnym decyzjom.

Właśnie dlatego przypadek goblinów przez ekspertów jest traktowany jako coś więcej niż internetowa ciekawostka. Pokazał, że nawet pozornie drobna preferencja utrwalona podczas treningu może zacząć wpływać na zachowanie modelu w sposób niezamierzony przez jego twórców.

Czytaj też:

Badanie: Prawie połowa odpowiedzi chatbotów AI zawiera błędy

Polacy boją się treści z AI, ale chętnie z niej korzystają

Kresy.pl / TechXplore / AP News

Tagi: , , ,
forma płatności