Контекстна класифікація відео з використанням VideoBERT та адаптерів DA-Ada

Автор(и)

  • Новічонок Марія Сергіївна Харківський національний університет радіоелектроніки, пр. Науки, 14. Харків, 61166, Україна Автор
  • Машталір Сергій Володимирович Харківський національний університет радіоелектроніки, пр. Науки, 14. Харків, 61166, Україна Автор

DOI:

https://doi.org/10.15276/ict.02.2025.19

Ключові слова:

контекстна класифікація відео, енкодер, декодер, нейронні мережі, адаптер, трансформер

Анотація

У цій роботі запропоновано архітектуру для задачі контекстної класифікації відео, яка поєднує сильні сторони попередньо натренованого відео-мовного енкодера VideoBERT, адаптаційного модуля DA-Ada (Domain-Aware Adapter, доменно-орієнтований адаптер) та авто-регресивного трансформерного декодера. Основна мета полягає в побудові системи, здатної формувати текстові описи дій у відео з високим ступенем узагальнення до нових доменів. Архітектура розроблена з урахуванням вимог до масштабованості, гнучкої адаптації та зменшення витрат часу на дотренування моделі у майбутньому. Вхідне відео розбивається на послідовність кадрів, кожен кадр перетворюється у вектор ознак за допомогою ResNet-50, попередньо натренованого на ImageNet. Далі вектори кадрів проєктуються в простір візуальних токенів та передаються в модуль VideoBERT. Цей енкодер, побудований на основі трансформерної архітектури BERT, виконує контекстуалізацію ознак по всій відеопослідовності, моделюючи довготривалі часові залежності між кадрами. Усі параметри VideoBERT залишаються замороженими, що зменшує потребу в ресурсах при донавчанні. Після енкодингу кожне представлення передається в адаптаційний модуль DA-Ada, який складається з двох паралельних гілок: DIA (Domain-Invariant Adapter, доменно-інваріантний адаптер) та DSA (Domain-Specific Adapter, доменно-специфічний адаптер). DIA навчається фільтрувати загальні, інваріантні ознаки, характерні для більшості відео. DSA фокусується на виявленні ознак, притаманних певному домену (наприклад, побутові сцени, індустріальні об’єкти, тощо). Вихідні представлення обох адаптерів поєднуються за допомогою скалярного коефіцієнта, що визначає баланс між універсальністю і спеціалізацією. Результатом цього злиття є послідовність адаптованих векторів, яка подається до трансформера для генерації опису дій. Генерація здійснюється трансформерним декодером, який складається з шести шарів, що включають механізм самоуваги (selfattention) для роботи з частково сформованим текстом, механізм перехресної уваги (cross-attention) до відео-контексту, а також стандартні блоки з прямим розповсюдженням (feed-forward). Починаючи з токена , декодер поетапно формує текстовий опис дії, завершуючи процес при генерації токена або досягненні граничної довжини. Запропонована архітектура забезпечує модульність, обмежену кількість параметрів, що підлягають донавчанню, та можливість використання і різних доменах. У подальшій роботі планується реалізація повного циклу навчання моделі на базі датасету Something-Something V2.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

  • автор Новічонок Марія Сергіївна, афіліація Харківський національний університет радіоелектроніки, пр. Науки, 14. Харків, 61166, Україна

    Aспірантка каф. Інформатики

  • автор Машталір Сергій Володимирович, афіліація Харківський національний університет радіоелектроніки, пр. Науки, 14. Харків, 61166, Україна

    Д-р техніч. наук, професор каф. Інформатики

    Scopus Author ID: 36183980100

Завантаження

Опубліковано

2025-11-05

Статті цього автора (цих авторів), які найбільше читають