Schema-Align: легкий уніфікатор скелетів із кінематичними обмеженнями для міждатасетного розпізнавання дій людини

Автор(и)

  • Ковалевич Роман Валерійович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор
  • Лобачев Михайло Вікторович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор

DOI:

https://doi.org/10.15276/ict.02.2025.40

Ключові слова:

машинне навчання, глибинне навчання, комп’ютерний зір, розпізнавання дій, аналіз поз, відеоспостереження, уніфікація даних, перенос навчання

Анотація

Розпізнавання людських дій на основі скелету страждає від низької зовнішньої валідності, оскільки популярні набори даних використовують несумісні схеми суглобів (наприклад, COCO-17, NTU-25/26), що призводить до необхідності спеціального ремапінгу, вилучення суглобів або використання декількох вхідних «голів» уваги, специфічних для набору даних. В даній роботі був представлений легкий уніфікатор діагностики моделей Schema-Align, який перетворює пози з довільних вихідних схем у фіксоване 21-суглобове представлення, використовуючи розріджене по рядках лінійне відображення, регуляризоване кінематичною доцільністю (обмеження довжини кісток і кута нахилу суглоба) і малопотужним тимчасовим залишком для інтерполяції дійсно відсутніх суглобів. Уніфікатор попередньо навчається без міток дій на змішаних потоках поз за допомогою послідовності циклів, часової передбачуваності та довірчо-зважених втрат, а потім підключається до будь-якої моделі HAR (GCN/MSG3D/CTR-GCN/Transformer) з незначною затримкою (<1%). Уніфікатор був оцінений на наборах NTU RGB+D 60/120 (3D), Kinetics-Skeleton, HMDB51-/UCF101-Skeleton і PoseTrack (2D), охоплюючи схему, набір даних і зсуви детектора. У внутрішньодоменних протоколах перетворення ефективно виконується без втрат, що відповідає власній продуктивності магістралей. При передачі між наборами даних Schema-Align послідовно зменшує падіння точності порівняно з перехресним та щільним лінійним ремапами, а також перевершує специфічні для набору даних голови, особливо коли вихідна та цільова схеми розходяться (наприклад, COCO↔NTU). Окрім точності, метод покращує калібрування (нижчий ECE) та анатомічну правдоподібність (менше порушень кісток/кутів), що вказує на те, що фізично обґрунтоване перетворення дає більш надійні ознаки при зсуві. Дослідження показують, що розрідженість верхніх k рядів (k=1-2) запобігає надмірному пристосуванню до схеми; залишковий інтерполятор допомагає оклюдованим або зашумленим детектором кадрам при мінімальних витратах на параметри; а видалення кінематичних втрат погіршує реалістичність і передачу. Завдяки єдиному тонкому матричному множенню і невеликому часовому модулю, Schema-Align забезпечує практичний, інтерпретований шлях до навчання – один раз, оцінюй – будь-де HAR.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

  • автор Ковалевич Роман Валерійович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

    Аспірант каф. Штучного інтелекту та аналізу даних

  • автор Лобачев Михайло Вікторович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

    Канд. техніч. наук, професор, директор Інституту ШIтучного інтелекту та робототехніки

Завантаження

Опубліковано

2025-11-05

Як цитувати

Schema-Align: легкий уніфікатор скелетів із кінематичними обмеженнями для міждатасетного розпізнавання дій людини. (2025). Інформатика. Культура. Техніка, 2, 266–272. https://doi.org/10.15276/ict.02.2025.40