Język polski najłatwiejszy dla sztucznej inteligencji. Angielski poza czołówką

Międzynarodowy zespół naukowców z University of Maryland i Microsoftu odkrył, że język polski jest najłatwiejszy do przetwarzania przez modele sztucznej inteligencji. W rankingu wydajności długich promptów polszczyzna uzyskała wynik 88 proc., wyprzedzając m.in. francuski, włoski i angielski. Autorzy badania przyznali, że rezultat był dla nich zaskoczeniem.

Newsletter Skomentuj Udostępnij Wyłącz reklamy

Zespół naukowców z University of Maryland i Microsoftu opublikował na portalu arXiv raport, który przyniósł zaskakujące wnioski dla środowiska inżynierów sztucznej inteligencji. W badaniu porównującym wydajność modeli językowych obsługujących długi kontekst ustalono, że język polski, mimo niewielkich zasobów w internecie, okazał się najłatwiejszy do przetwarzania przez AI.

Zobacz także: Włochy przyjęły ustawę regulującą wykorzystywanie sztucznej inteligencji

W raporcie zatytułowanym „One ruler to measure them all: Benchmarking multilingual long-context language models” badacze – Yekyung Kim, Jenna Russell, Marzena Karpińska i Mohit Iyyer – przeanalizowali 26 języków oraz kilka modeli sztucznej inteligencji, w tym OpenAI o3-mini-high, Google Gemini 1.5 Flash i Llama 3.3 (70B). Modele testowano w zakresie przetwarzania poleceń o długości do 128 tys. tokenów. Wyniki ujawniły nieoczekiwaną zależność między strukturą języka a skutecznością przetwarzania danych.

„Eksperymenty z otwartymi i zamkniętymi modelami LLM ujawniają rosnącą różnicę w wydajności między językami o niskich i wysokich zasobach, wraz ze wzrostem długości kontekstu z 8 tys. do 128 tys. tokenów. Co zaskakujące, język angielski nie jest językiem o najwyższej wydajności w zadaniach długiego kontekstu (zajął 6. miejsce na 26), a na szczyt listy wysuwa się język polski” — napisano w raporcie.

Może Cię zainteresować: Orlen i Google Cloud rozwijają współpracę w zakresie sztucznej inteligencji

W zestawieniu wydajności języków w kontekście długich promptów polski uzyskał wynik 88 proc., wyprzedzając francuski (87 proc.), włoski (86 proc.), hiszpański (85 proc.), rosyjski (84 proc.) i angielski (83,9 proc.). Wynik ten zaskoczył nawet samych autorów badania, którzy spodziewali się dominacji języków o dużych zasobach danych.

Jak podkreślono, rezultaty mogą mieć istotne znaczenie dla rozwoju modeli wielojęzycznych. Wskazują, że skuteczność sztucznej inteligencji zależy nie tylko od liczby danych treningowych, ale także od struktury gramatycznej języka i jego regularności.

Badacze zwrócili uwagę, że polszczyzna, choć często uznawana za trudną dla cudzoziemców, w kontekście AI okazuje się wyjątkowo „przyjazna” dla modeli przetwarzania języka naturalnego. Odkrycie to otwiera nowe perspektywy dla badań nad wielojęzycznymi systemami sztucznej inteligencji i może stać się impulsem do rozwoju technologii AI w Polsce.

Według raportu, „dane z badania sugerują, że nie tylko wielkość zasobu treningowego, ale także cechy gramatyczne języka mogą odgrywać kluczową rolę w skuteczności modeli językowych”. Autorzy dodali, że zrozumienie tej zależności może pomóc w budowie bardziej uniwersalnych systemów AI, zdolnych do efektywnego przetwarzania również mniej popularnych języków.

Rezultaty badania pokazują, że mniejsze języki mogą konkurować z globalnymi pod względem wydajności technologicznej. Dla polskich użytkowników i twórców narzędzi AI to sygnał, że polszczyzna ma istotny potencjał w rozwoju tej dziedziny. Jak zauważyli autorzy, „to wynik, który zaskoczył nawet samych badaczy”.

Odkrycie to może skłonić międzynarodowe koncerny technologiczne do większego zaangażowania w rozwój modeli uczonych w języku polskim, a tym samym zwiększyć znaczenie Polski na mapie światowych badań nad sztuczną inteligencją.

Jesteśmy najbardziej rzetelnymi mediami w Polsce

Kresy.pl/Business Insider

Święta Klotylda, królowa Franków

Wyroki dożywotniego więzienia dla liderów tunezyjskiej partii islamistycznej

Kreml odpowiada na list Zełenskiego. Pieskow: Jeśli chce spotkania z Putinem, może przyjechać do Moskwy

Zełenski zaprasza Putina na rozmowy. „Ukraina jest gotowa całkowicie wstrzymać ogień”

Litwa chce reakcji UE. Chodzi o rosnącą liczbę wiz dla Rosjan

50 mln zł na „Żydowskie Dziedzictwo Kulturowe”. Ministerstwo kultury rusza z III edycją projektu

Armenia podpisuje umowę ustanawiającą amerykański szlak przez jej południową prowincję

Komisja Europejska chce końca kontroli granicznych w Schengen

Większość Libańczyków uważa USA za wroga

Niemiecka delegacja na rosyjskim forum ekonomicznym. Polityk AfD spotkał się z szefem Gazpromu

Nagi cudzoziemiec z Zimbabwe chodził po moście w Toruniu. Poseł chce kontroli uczelni „z rektoratem w baraku”

Fińscy parlamentarzyści chcą podwojenia wydatków na obronność

Niemcy odrzucają wezwania KE i Polski do zniesienia kontroli granicznych

Niezabliźniona rana Węgrów. 4 czerwca 1920 roku podpisano traktat w Trianon

Politico: USA mogą zrezygnować z Tomahawków dla Niemiec. Pentagon obawia się reakcji Rosji

Rusza budowa kolejnych fragmentów S10, która połączy Szczecin z Warszawą. Całą trasą nie pojedziemy przed 2032 rokiem

Tusk: Ukraińcy doprowadzili do tego kryzysu

Żona rzecznika Kremla pozywa UE. Rosyjskie elity domagają się cofnięcia sankcji

Święty Bonifacy. Anglik, który został „apostołem Niemiec”

Obywatel Ukrainy deportowany za wyłowienie suma z Balatonu

Rosja żąda 47,2 mln euro od Rheinmetall. Chodzi o kontrakt na centrum szkoleniowe

Ukraina zabiega o pociski systemu Patriot w Niemczech

Żołnierz sił pokojowych ONZ zginął w Libanie mimo proklamowanego przez USA rozejmu

Kościołowi w Polsce przybędzie 196 nowych księży

Rusza budowa kolejnych fragmentów S10, która połączy Szczecin z Warszawą. Całą trasą nie pojedziemy przed 2032 rokiem

SBU rozbiła osiem schematów ucieczki przed mobilizacją. Łapówki sięgały 20 tysięcy dolarów

Media: Ukraińskie Mirage’e zaczęły używać francuskich bomb AASM-250

Obywatel Ukrainy deportowany za wyłowienie suma z Balatonu

Kosiniak-Kamysz apeluje do Kijowa. Chodzi o jednostkę nazwaną imieniem „Bohaterów UPA” [+VIDEO]

Trump powierza wywiad urzędnikowi od mieszkań. Demokraci mówią o „politycznej zemście”

Zobacz także

Wspieraj Kresy i czytaj bez reklam.1 zł = 1 dzień dostępu.

Wspieraj Kresy i czytaj bez reklam.
1 zł = 1 dzień dostępu.