Адаптивний фрагментний аналіз відеопотоків для класифікації дорожньо-транспортних пригод за допомогою розрідженого відео-трансформеру
DOI:
https://doi.org/10.15276/ict.02.2025.20Ключові слова:
відеокласифікація, нейронні мережі, згорткові нейронні мережі, класифікація об’єктів, аналіз відеопотоків, класифікація даних, обробка фрагментів зображенняАнотація
У роботі запропоновано простий у програмній реалізації та дієвий підхід до класифікації коротких відеофрагментів на аварійні та нормальні сцени. Для даної роботи використовується рівномірна вибірка кадрів з усього кліпу (6–8 кадрів) для того, щоб не втрачати ключові події навіть у довгих роликах. Далі застосовується адаптивна «фрагментація» кадру, керована рухом: за картою оптичного потоку Farnebäck обчислюються квантільні пороги й для кожної комірки базової сітки обирається розмір фрагмента (8/16/32 пікселів). У ділянках із виразним рухом обираються дрібні фрагменти (вища деталізація), у статичних — більші (менше обчислень). Відібрані фрагменти не перекриваються, масштабуються до базового розміру та перетворюються на ознакові вектори. Архітектура побудована за двоступеневим принципом. На першому кроці просторовий блок уваги працює всередині одного кадру — лише над відібраними фрагментами, що суттєво зменшує кількість ознакових одиниць. На другому кроці часовий блок опрацьовує послідовність кадрів через їх короткі підсумкові представлення (службові класифікаційні маркери, далі — CLS), агрегуючи динаміку у часі. Така факторизація «простір → час» знижує обчислювальну вартість і пам’ять без втрати інформативності в рухомих регіонах. Для боротьби з дисбалансом класів застосовано зважену функцію втрат (або «втрату з фокусуванням на важких прикладах») і випадкове вибіркування з вагами під час навчання. Попередньо на диск зберігаються карти оптичного потоку та списки відібраних фрагментів, що прискорює епохи на процесорі без спеціального графічного обладнання. Оцінювання проводиться на CCD1500 (1500 аварійних і 3000 нормальних відео) зі стандартним поділом 80/20 за збереженням часток класів. Отримано точність 0.864 і макро-F1 0.851; за попереднім порівнянням запропонований підхід перевершує базову рівномірну розбивку кадру та класичні схеми з простим часовим вибіркуванням. Головна цінність підходу — поєднання «рух-керованого» скорочення ознакових одиниць і двоступеневої обробки, що робить модель придатною для реалістичних обмежень за часом і ресурсами (CPU), зберігаючи високу чутливість до коротких і локальних аварійних подій. Метод легко масштабувати та поєднувати з попереднім навчанням на основі маскованих відновлень відео. Також описується фіксацію умов, відкриті налаштування й кроки для повної відтворюваності.