UA-Code-Bench: україномовний бенчмарк спортивного програмування для оцінювання генерації коду великими мовними моделями

Микита Валерійович Сиром’ятніков; Вікторія Михайлівна Рувінська

doi:10.15276/ict.02.2025.47

Автор(и)

Сиром’ятніков Микита Валерійович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор
Рувінська Вікторія Михайлівна Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор

DOI:

https://doi.org/10.15276/ict.02.2025.47

Ключові слова:

великі мовні моделі, генерація коду, бенчмарк, спортивне програмування, українська мова

Анотація

Оцінювання реальних можливостей великих мовних моделей у низькоресурсних мовах все ще залишається складним завданням, оскільки значна частина наявних тестових наборів даних зосереджуються на поширених задачах, перекладених з англійської, або перевіряють лише базове розуміння мови. У цій роботі представлено UA-Code-Bench – новий загальнодоступний бенчмарк для всебічного оцінювання здатності великих мовних моделей генерувати програмний код і розв’язувати україномовні задачі зі спортивного програмування. Набір охоплює 500 задач платформи Eolymp, рівномірно розподілених за п’ятьма рівнями складності – від дуже простих до дуже складних. Різноманітний набір із 13 провідних пропрієтарних та загальнодоступних великих мовних моделей, що генерували код рішення на Python за інструкцією із одним прикладом (one-shot), було оцінено у виділеному середовищі Eolymp на прихованих тестах, що перевіряють правильність рішення. Отримані результати демонструють, що навіть найкращі моделі, зокрема OpenAI o3 та GPT-5, розв’язують лише половину задач. Це підкреслює складність генерації коду для умов, описаних низькоресурсною мовою. Додатково представлено детальний аналіз продуктивності за рівнями складності, а також оцінювання унікальності розв’язків і ефективності згенерованих рішень, що оцінювалася швидкістю виконання та споживанням пам’яті згенерованих програм. Підсумовуючи, робота демонструє цінність діагностичних наборів даних зі спортивного програмування для оцінювання великих мовних моделей, особливо для перевірки здібностей у низькоресурсних мовах, і окреслює шлях до подальших досліджень багатомовної генерації коду та моделей з підтримкою міркування.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

автор Сиром’ятніков Микита Валерійович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Аспірант каф. Інженерії програмного забезпечення
автор Рувінська Вікторія Михайлівна, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Доктор філософії, професор каф. Інженерії програмного забезпечення

UA-Code-Bench: україномовний бенчмарк спортивного програмування для оцінювання генерації коду великими мовними моделями

Автор(и)

DOI:

Ключові слова:

Анотація

Завантажити

Біографії авторів

Завантаження

Опубліковано

Номер

Розділ

Як цитувати