UA-Code-Bench: україномовний бенчмарк спортивного програмування для оцінювання генерації коду великими мовними моделями
DOI:
https://doi.org/10.15276/ict.02.2025.47Ключові слова:
великі мовні моделі, генерація коду, бенчмарк, спортивне програмування, українська моваАнотація
Оцінювання реальних можливостей великих мовних моделей у низькоресурсних мовах все ще залишається складним завданням, оскільки значна частина наявних тестових наборів даних зосереджуються на поширених задачах, перекладених з англійської, або перевіряють лише базове розуміння мови. У цій роботі представлено UA-Code-Bench – новий загальнодоступний бенчмарк для всебічного оцінювання здатності великих мовних моделей генерувати програмний код і розв’язувати україномовні задачі зі спортивного програмування. Набір охоплює 500 задач платформи Eolymp, рівномірно розподілених за п’ятьма рівнями складності – від дуже простих до дуже складних. Різноманітний набір із 13 провідних пропрієтарних та загальнодоступних великих мовних моделей, що генерували код рішення на Python за інструкцією із одним прикладом (one-shot), було оцінено у виділеному середовищі Eolymp на прихованих тестах, що перевіряють правильність рішення. Отримані результати демонструють, що навіть найкращі моделі, зокрема OpenAI o3 та GPT-5, розв’язують лише половину задач. Це підкреслює складність генерації коду для умов, описаних низькоресурсною мовою. Додатково представлено детальний аналіз продуктивності за рівнями складності, а також оцінювання унікальності розв’язків і ефективності згенерованих рішень, що оцінювалася швидкістю виконання та споживанням пам’яті згенерованих програм. Підсумовуючи, робота демонструє цінність діагностичних наборів даних зі спортивного програмування для оцінювання великих мовних моделей, особливо для перевірки здібностей у низькоресурсних мовах, і окреслює шлях до подальших досліджень багатомовної генерації коду та моделей з підтримкою міркування.