Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування

Тарас Володимирович Діденко; Олексій Борисович Кунгурцев

doi:10.15276/ict.02.2025.48

Автор(и)

Діденко Тарас Володимирович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор
Кунгурцев Олексій Борисович Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна Автор

DOI:

https://doi.org/10.15276/ict.02.2025.48

Ключові слова:

обробка природної мови, TF-IDF, ключові слова, RAKE, TextRank, BERT, KeyBERT, embeddings, spaCy, ConceptNet

Анотація

У роботі розглядається проблема автоматичного виявлення ключових слів у текстах як важливого етапу обробки природної мови (NLP). Актуальність теми обумовлена стрімким зростанням обсягів текстових даних, що потребують систематизації та аналізу. Проаналізовано основні підходи до виділення ключових слів: класичні статистичні методи (TF-IDF, RAKE, TextRank), сучасні семантичні алгоритми (BERT, KeyBERT, embeddings із кластеризацією), а також сторонні інструменти та API (ConceptNet, spaCy, HuggingFace Transformers). Показано, що статистичні методи відзначаються простотою реалізації, однак поступаються сучасним моделям за точністю, оскільки не враховують контекст і семантику. Семантичні підходи забезпечують вищу якість результатів, проте є більш ресурсоємними. Особливу увагу приділено практичним експериментам з українськими текстами, які попередньо перекладалися англійською для використання англомовних моделей. Такий підхід дозволив отримати кращі результати, оскільки більшість бібліотек оптимізовані саме для англомовних корпусів. Однак спроби зворотного перекладу виявили проблеми зі збереженням змісту. Експериментальні дослідження показали, що KeyBERT продемонстрував найвищу ефективність серед розглянутих методів: він поєднує релевантність результатів, швидкодію та простоту інтеграції, що робить його придатним як для наукових досліджень, так і для прикладних інформаційних систем. У висновках обґрунтовується доцільність використання KeyBERT у поєднанні з англомовними текстами як оптимального рішення для задачі виявлення ключових слів. Також окреслено перспективні напрями розвитку: підтримка мультимовних корпусів, адаптація під доменні тексти та оптимізація моделей для роботи з великими масивами даних.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

автор Діденко Тарас Володимирович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Магістр каф. програмної інженерії
автор Кунгурцев Олексій Борисович, афіліація Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

Канд. техніч. наук, професор каф. Програмної інженерії

Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування

Автор(и)

DOI:

Ключові слова:

Анотація

Завантажити

Біографії авторів

Завантаження

Опубліковано

Номер

Розділ

Як цитувати