Кластеризація текстових повідомлень

Автор(и)

  • Данило Олексійович Ведмєдєв Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»
  • Наталія Віталіївна Шаповал Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського» https://orcid.org/0000-0002-8509-6886

DOI:

https://doi.org/10.18372/1990-5548.78.18255

Ключові слова:

аналіз текстових повідомлень, машинне навчання, Embedded Word2Vec, Mini Batch K-means, метод найбільшої спільної підпослідовності; кластеризація, СМС-повідомлення

Анотація

Розглянуто поділ текстових повідомлень на групи, що може бути корисним при побудові персоналізованого підходу в різних системах. Для вирішення цієї проблеми був запропонований вбудований Word2Vec. Пропонується використання mini-batch k-means, як методу із меншими обчислювальними вимогами. Ця рекомендація узгоджується з практичною потребою в ефективних і масштабованих методах кластеризації, особливо при роботі з великими наборами даних. Крім того, запропонована метрика, заснована на найбільшій загальній послідовності, виділяється як цінний інструмент для оцінки подібності текстів. Цей показник не тільки служить засобом оцінки якості кластеризації, але й підкреслює методологічний підхід безпосередньої роботи з текстовими даними. Поєднання цих методів представляє комплексну структуру для надійної та ефективної текстової кластеризації з потенційними застосуваннями в різноманітних сферах, таких як персоналізована взаємодія системи та пошук інформації.

Біографії авторів

Данило Олексійович Ведмєдєв , Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Студент магістр

Наталія Віталіївна Шаповал , Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Кандидат технічних наук

Доцент

Посилання

Frank Lin and William W. Cohen, “A Very Fast Method for Clustering Big Text Datasets,” In: Proceedings of the 2010 conference on ECAI 2010: 19th European Conference on Artificial Intelligence, 2010, pp. 303–308.

Andrew Ng, Michael Jordan, and Yair Weiss. “On spectral clustering: Analysis and an algorithm,” Advances in neural information processing systems, 2001, 14.

Von Luxburg, Ulrike. A Tutorial on Spectral Clustering. Statistics and Computing. Data Structures and Algorithms (cs. DS); Machine Learning, pp. 395–416.

Rohan Saha, ‘Influence of various text embeddings on clustering performance in NLP’, 2023.

Abdi A., Hajsaeedi M., Hooshmand M., "Longest Common Substring in Longest Common Subsequence's Solution Service: A Novel Hyper-heuristic," Computational Biology and Chemistry, vol. 105, p. 107882, 2023. https://doi.org/10.1016/j.compbiolchem.2023.107882

Negev Shekel Nosatzki, “Approximating the Longest Common Subsequence problem within a sub-polynomial factor in linear time,” arXiv e-prints, 2021, https://doi.org/10.48550/arXiv.2112.08454

G. Yamini, Dr. B. Renuka Devi, “A New Hybrid Clustering Technique Based on Mini-batch K-means and K-means++ for Analysing Big Data,” International Journal of Recent Research Aspects, 2018.

Carl Allen and Timothy Hospedales, “Analogies Explained: Towards Understanding Word Embeddings,” Proceedings of the 36th International Conference on Machine Learning, PMLR 97:223–231, 2019.

##submission.downloads##

Опубліковано

2023-12-27

Номер

Розділ

КОМП’ЮТЕРНІ НАУКИ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ