Międzynarodowy zespół naukowców z University of Maryland i Microsoftu odkrył, że język polski jest najłatwiejszy do przetwarzania przez modele sztucznej inteligencji. W rankingu wydajności długich promptów polszczyzna uzyskała wynik 88 proc., wyprzedzając m.in. francuski, włoski i angielski. Autorzy badania przyznali, że rezultat był dla nich zaskoczeniem.

Zespół naukowców z University of Maryland i Microsoftu opublikował na portalu arXiv raport, który przyniósł zaskakujące wnioski dla środowiska inżynierów sztucznej inteligencji. W badaniu porównującym wydajność modeli językowych obsługujących długi kontekst ustalono, że język polski, mimo niewielkich zasobów w internecie, okazał się najłatwiejszy do przetwarzania przez AI.

Zobacz także: Włochy przyjęły ustawę regulującą wykorzystywanie sztucznej inteligencji

W raporcie zatytułowanym „One ruler to measure them all: Benchmarking multilingual long-context language models” badacze – Yekyung Kim, Jenna Russell, Marzena Karpińska i Mohit Iyyer – przeanalizowali 26 języków oraz kilka modeli sztucznej inteligencji, w tym OpenAI o3-mini-high, Google Gemini 1.5 Flash i Llama 3.3 (70B). Modele testowano w zakresie przetwarzania poleceń o długości do 128 tys. tokenów. Wyniki ujawniły nieoczekiwaną zależność między strukturą języka a skutecznością przetwarzania danych.

„Eksperymenty z otwartymi i zamkniętymi modelami LLM ujawniają rosnącą różnicę w wydajności między językami o niskich i wysokich zasobach, wraz ze wzrostem długości kontekstu z 8 tys. do 128 tys. tokenów. Co zaskakujące, język angielski nie jest językiem o najwyższej wydajności w zadaniach długiego kontekstu (zajął 6. miejsce na 26), a na szczyt listy wysuwa się język polski” — napisano w raporcie.

Może Cię zainteresować: Orlen i Google Cloud rozwijają współpracę w zakresie sztucznej inteligencji

W zestawieniu wydajności języków w kontekście długich promptów polski uzyskał wynik 88 proc., wyprzedzając francuski (87 proc.), włoski (86 proc.), hiszpański (85 proc.), rosyjski (84 proc.) i angielski (83,9 proc.). Wynik ten zaskoczył nawet samych autorów badania, którzy spodziewali się dominacji języków o dużych zasobach danych.

Jak podkreślono, rezultaty mogą mieć istotne znaczenie dla rozwoju modeli wielojęzycznych. Wskazują, że skuteczność sztucznej inteligencji zależy nie tylko od liczby danych treningowych, ale także od struktury gramatycznej języka i jego regularności.

Badacze zwrócili uwagę, że polszczyzna, choć często uznawana za trudną dla cudzoziemców, w kontekście AI okazuje się wyjątkowo „przyjazna” dla modeli przetwarzania języka naturalnego. Odkrycie to otwiera nowe perspektywy dla badań nad wielojęzycznymi systemami sztucznej inteligencji i może stać się impulsem do rozwoju technologii AI w Polsce.

Według raportu, „dane z badania sugerują, że nie tylko wielkość zasobu treningowego, ale także cechy gramatyczne języka mogą odgrywać kluczową rolę w skuteczności modeli językowych”. Autorzy dodali, że zrozumienie tej zależności może pomóc w budowie bardziej uniwersalnych systemów AI, zdolnych do efektywnego przetwarzania również mniej popularnych języków.

Rezultaty badania pokazują, że mniejsze języki mogą konkurować z globalnymi pod względem wydajności technologicznej. Dla polskich użytkowników i twórców narzędzi AI to sygnał, że polszczyzna ma istotny potencjał w rozwoju tej dziedziny. Jak zauważyli autorzy, „to wynik, który zaskoczył nawet samych badaczy”.

Odkrycie to może skłonić międzynarodowe koncerny technologiczne do większego zaangażowania w rozwój modeli uczonych w języku polskim, a tym samym zwiększyć znaczenie Polski na mapie światowych badań nad sztuczną inteligencją.

Kresy.pl/Business Insider

Tagi: ,
forma płatności