Аналіз та вибір методів виявлення ключових слів у текстах: огляд існуючих підходів і практичне застосування
DOI:
https://doi.org/10.15276/ict.02.2025.48Ключові слова:
обробка природної мови, TF-IDF, ключові слова, RAKE, TextRank, BERT, KeyBERT, embeddings, spaCy, ConceptNetАнотація
У роботі розглядається проблема автоматичного виявлення ключових слів у текстах як важливого етапу обробки природної мови (NLP). Актуальність теми обумовлена стрімким зростанням обсягів текстових даних, що потребують систематизації та аналізу. Проаналізовано основні підходи до виділення ключових слів: класичні статистичні методи (TF-IDF, RAKE, TextRank), сучасні семантичні алгоритми (BERT, KeyBERT, embeddings із кластеризацією), а також сторонні інструменти та API (ConceptNet, spaCy, HuggingFace Transformers). Показано, що статистичні методи відзначаються простотою реалізації, однак поступаються сучасним моделям за точністю, оскільки не враховують контекст і семантику. Семантичні підходи забезпечують вищу якість результатів, проте є більш ресурсоємними. Особливу увагу приділено практичним експериментам з українськими текстами, які попередньо перекладалися англійською для використання англомовних моделей. Такий підхід дозволив отримати кращі результати, оскільки більшість бібліотек оптимізовані саме для англомовних корпусів. Однак спроби зворотного перекладу виявили проблеми зі збереженням змісту. Експериментальні дослідження показали, що KeyBERT продемонстрував найвищу ефективність серед розглянутих методів: він поєднує релевантність результатів, швидкодію та простоту інтеграції, що робить його придатним як для наукових досліджень, так і для прикладних інформаційних систем. У висновках обґрунтовується доцільність використання KeyBERT у поєднанні з англомовними текстами як оптимального рішення для задачі виявлення ключових слів. Також окреслено перспективні напрями розвитку: підтримка мультимовних корпусів, адаптація під доменні тексти та оптимізація моделей для роботи з великими масивами даних.