Застосування новітньої моделі TabPFN для класифікації табличних даних

Автор(и)

  • Мрихін Андрій Львович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор
  • Антощук Світлана Григорівна Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор

DOI:

https://doi.org/10.15276/ict.02.2025.07

Ключові слова:

табличні дані, машинне навчання, класифікація, регресія, градієнтний бустинг над деревами рішень, генеративна модель-трансформер, навчання в контексті, двонаправлений механізм уваги

Анотація

На сьогодні табличні дані залишаються найпоширенішою формою представлення інформації — вони повсюдно використовуються в таких галузях, як медицина, фінанси, виробництво, економіка, державне управління та кліматологія. Тому проблема розроблення нових методів класифікації та регресійного аналізу табличних наборів даних залишається надзвичайно актуальною. Хоча методи глибокого навчання здійснили справжню революцію в аналізі вихідних даних у таких сферах, як комп’ютерний зір і обробка природної мови, табличні дані становлять унікальний набір викликів, що не дозволяє традиційним нейромережевим моделям бути безпосередньо ефективними. У нашому дослідженні розглядається новітня модель TabPFN v2 (Tabular Prior-Data Fitted Network), розроблена компанією Prior Labs, яка обіцяє забезпечити високу точність прогнозування на малих і середніх вибірках без потреби в трудомісткому налаштуванні гіперпараметрів і попередній обробці даних. TabPFN є генеративною моделлю - трансформером, що використовує ті самі механізми, що забезпечили видатні успіхі великих мовних моделей, для створення потужного алгоритму прогнозування табличних даних. Модель попередньо навчена на великому корпусі різноманітних синтетичних табличних наборів даних і застосовує навчання в контексті (in-context learning) з двонаправленим механізмом уваги для подолання ключових обмежень існуючих моделей глибокого навчання під час аналізу даних, організованих у вигляді рядків і стовпців. Застосовуючи TabPFN до реального завдання класифікації записів про постачання виробничих матеріалів для оцінювання ризиків, ми з’ясували, що за умови використання в межах її визначених обмежень ця модель може перевершувати визнані найсучасніші рішення, засновані на градієнтному бустингу над деревами рішень. Ми також дослідили доступні в TabPFN можливості оптимізації та провели експерименти з нашими реальними даними. Загалом, TabPFN є яскравим прикладом того, як принципи моделейтрансформерів можуть бути успішно адаптовані для аналізу табличних даних. Хоча TabPFN не є універсальним рішенням, вона безперечно варта того, щоб бути включеною до інструментарію аналізу табличних даних

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

  • автор Мрихін Андрій Львович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

    Аспірант каф. Інформаційних систем

  • автор Антощук Світлана Григорівна, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

    Д-р техніч. наук, професор каф. Інформаційних систем

    Scopus Author ID: 8393582500

Завантаження

Опубліковано

2025-11-05

Статті цього автора (цих авторів), які найбільше читають