Сучасні підходи до підвищення ефективності розпізнавання зображень при обмежених наборах даних
DOI:
https://doi.org/10.15276/ict.02.2025.01Ключові слова:
комп’ютерний зір, аугментація даних, згорткові нейронні мережі, класифікація зображень, обмежені вибірки, перенавчання, штучний інтелектАнотація
У сучасних системах комп’ютерного зору точність моделей глибокого навчання значною мірою залежить від обсягів та різноманітності навчальних даних. Проте у багатьох прикладних сферах збирання великих розмічених датасетів є складним, дорогим або іноді навіть недосяжним завданням. Це обумовлює потребу у використанні підходів, які дозволяють покращити результати моделей навіть за умов обмежених вибірок. Одним із найперспективніших рішень є аугментація даних, що передбачає створення додаткових навчальних прикладів шляхом трансформації наявних зображень. У даній роботі проведено практичний експеримент з використанням датасету CIFAR-10, де для моделювання умов обмежених ресурсів було використано лише 10 000 прикладів із 50 000 доступних. Для навчання застосовано одну згорткову нейронну мережу, а результати було порівняно між моделлю, яка була натренована без будь-яких перетворень, та моделлю, що використовувала базову аугментацію. До переліку застосованих методів увійшли горизонтальне віддзеркалення, випадкове кадрування із додаванням полів, а також зміни яскравості, контрасту та насиченості кольорів. Отримані результати показали, що застосування навіть базових прийомів аугментації дозволяє суттєво підвищити стійкість моделі до варіацій у вхідних даних. Якщо модель без додаткових трансформацій демонструвала схильність до перенавчання та нижчу точність на тестовій вибірці, то додавання аугментації дало відчутний приріст у показниках узагальнюючої здатності. Зокрема, графіки навчання засвідчили зменшення різниці між навчальною та тестовою точністю, що свідчить про ефективніший баланс між підлаштуванням до даних та здатністю працювати з новими прикладами. Важливою відмінністю проведеного дослідження є акцент саме на умовах обмежених вибірок, що робить його релевантним для практичних задач, де доступ до великих обсягів маркованих даних ускладнений. Отримані результати не лише підтверджують ефективність класичної аугментації, а й підкреслюють її потенціал як базового інструменту, який може бути подальше поєднаний з іншими методами, наприклад, напівконтрольованим навчанням або генерацією синтетичних даних. Таким чином, робота демонструє не лише теоретичну, але й прикладну цінність аугментації для підвищення точності моделей комп’ютерного зору. Дане дослідження є відправною точкою для подальшого дослідження впливу аугментації на нейронні мережі в здачах розпізнавання зображень.