Мультимодальні графові подання для надійного виявлення антипатернів в еволюційних кодових базах

Автор(и)

  • Курінько Данило Дмитрович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор
  • Кривда Вікторія Ігорівна Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор

DOI:

https://doi.org/10.15276/ict.02.2025.45

Ключові слова:

машинне навчання, програмна інженерія, аналіз програм, графові моделі, статичний аналіз, виявлення антипатернів, якість програмного забезпечення, відкриті множини

Анотація

У дослідженні оцінюється, чи підвищують мультимодальні та багаторівневі подання надійність виявлення запахів коду і антипатернів в еволюційних, мультимовних програмних системах. Запропоновано гібридну модель, що інтегрує чотири канали даних – структурний, семантичний, метричний та еволюційний – у єдиний Code Property Graph (CPG), який поєднує зв’язки AST, CFG і PDG. Семантичні відомості отримуються за допомогою попередньо навчених мовних моделей коду; класичні індикатори якості (CK, McCabe/Halstead) фіксуються як атрибути вузлів і ребер; сигнали систем контролю версій (churn, ко-зміни, давність) агрегуються з часовим згасанням для урахування актуальності. Навчання здійснюється ієрархічно: локальний енкодер підсумовує ідіоми на рівні токену та індуковані графові зрізи; компонентний, зв’язкоорієнтований GNN моделює когезію/зв’язування і структуру потоків даних/керування; проєктний енкодер поширює контекст у графі взаємодії компонентів. Екземплярно-залежний «гейтінг» каналів використовується для зважування модальностей і підкреслення релевантних ознак. Для розгортання у відкритих умовах застосовано селективне передбачення з використанням взаємодоповнювальних критеріїв невизначеності (енергія логітів, ентропія, стохастична дисперсія) та температурне калібрування для покращення достовірності ймовірностей і можливості утримання від рішення у випадках низької впевненості. Емпірична оцінка охоплює репозиторії Java, Kotlin і Scala з міжпроєктними та часовими розбиттями; open-set тести формуються шляхом утримання класу смелів під час навчання. Порівняно з правилами/метриками, AST-GNN, текст-орієнтованими та AST+Text підходами, гібридна модель демонструє стабільні покращення без збільшення FPR@95TPR. У середньому по репозиторіях MacroAUPRC зростає приблизно на 6-7 в. п., Macro-F1 – на 3-4 в. п., з найбільшими виграшами для God Class і Shotgun-Surgeryподібних категорій. Інкрементальні оновлення CPG і обмежена глибина пропагації забезпечують латентність, сумісну з CI/CD, а ієрархічні пояснення та ваги каналів надають інтерпретованість. Результати свідчать про багатосигнальну, контекстну природу запахів і ефективність ієрархічного, каліброваного, open-set підходу

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

  • автор Курінько Данило Дмитрович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

    Аспірант каф. Штучного інтелекту та аналізу даних

  • автор Кривда Вікторія Ігорівна, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

    Канд. техніч. наук, доцент каф. Електропостачання та енергетичного менеджменту

Завантаження

Опубліковано

2025-11-05

Як цитувати

Мультимодальні графові подання для надійного виявлення антипатернів в еволюційних кодових базах. (2025). Інформатика. Культура. Техніка, 2, 294–299. https://doi.org/10.15276/ict.02.2025.45