Comparative Analysis of Text Vectorization Methods

Віктор Михайлович Синєглазов; Ілля Михайлович Савенко

doi:10.18372/1990-5548.76.17663

Автор(и)

Віктор Михайлович Синєглазов Національний авіаційний університет, Київ https://orcid.org/0000-0002-3297-9060
Ілля Михайлович Савенко Національний технічний університет Україні «Київський Політехнічний Інститут імені Ігоря Сікорського»

DOI:

https://doi.org/10.18372/1990-5548.76.17663

Ключові слова:

інтелектуальний аналіз тексту, обробка тексту природної мови, вставлення тексту, аналіз думок, машинне навчання, Word2Vec, TF-IDF, статистичні вкладення, контекстні вбудовування

Анотація

В роботі розглянуто способи векторизації текстових властивостей природної мови в контексті задачі інтелектуального аналізу тексту. Проаналізовано найпоширеніші способи статистичного аналізу вилучення ознак та методи з урахуванням контексту. В роботі проведено опис вищезазначених типів обрамлення тексту та їх найпоширеніші реалізації. Виконано їх порівняльний аналіз, який показав зв’язок між типом задачі інтелектуального аналізу тексту та методом, що показує найкращі метрики. Описано та реалізовано топологію нейронної мережі, яка стоїть в основі вирішення задачі та отримання метрик. Порівняльний аналіз проведено за допомогою відносного аналізу часу теорії алгоритмів та метрик класифікації: accuracy, f1-score, precision, recall. Метрики класифікації узято з результатів побудови моделі нейронної мережі з використанням описаних методів обрамлення. В результаті в задачі аналізу тональності тексту найкращим виявився статистичний метод обрамлення на основі n-грамів символьних послідовностей.

Біографії авторів

Віктор Михайлович Синєглазов , Національний авіаційний університет, Київ

Доктор технічних наук

Професор

Завідувач кафедри авіаційних комп’ютерно-інтегрованих комплексів

Факультет аеронавігації, електроніки і телекомунікацій

Ілля Михайлович Савенко , Національний технічний університет Україні «Київський Політехнічний Інститут імені Ігоря Сікорського»

Кафедра штучного інтелекту

Інститут прикладного системного аналізу

Посилання

Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, “Introduction to Information Retrieval,” Cambridge University Press, 2008. https://doi.org/10.1017/CBO9780511809071.

Tomáš Mikolov, Statistical language models based on neural networks, Ph.D. thesis, Brno University of Technology, 2012.

Tomáš Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, Efficient estimation of word representations in vector space. arXiv:1301.3781 [cs], January 2013.

Jeffrey Pennington, Richard Socher, and Christopher Manning, “GloVe: global vectors for word representation,” In Proc. of the Conference on Empirical Methods in Natural Language Process- ing (EMNLP), pp. 1532–1543, Doha, Qatar. Association for Computational Linguistics, October 2014. https://doi.org/10.3115/v1/D14-1162.

Jeffrey Pennington, Richard Socher, and Christopher Manning, “GloVe: global vectors for word representation,” In Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532–1543, Doha, Qatar. Association for Computational Linguistics, October 2014. https://doi.org/10.3115/v1/D14-1162.

T. T. Vu, V. A. Nguyen, & T. B. Le, “Combining Word2Vec and TF-IDF with Supervised Learning for Short Text Classification,” In 2020 3rd International Conference on Computational Intelligence (ICCI), 2020, pp. 241–245, IEEE.

M. Lin, S. Liao, & Y. Huang, “Hybrid word2vec and TF-IDF approach for sentiment classification,” Journal of Information Science, 45(6), 797–806, 2019.

Порівняльний аналіз методів векторизації тексту

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Віктор Михайлович Синєглазов , Національний авіаційний університет, Київ

Ілля Михайлович Савенко , Національний технічний університет Україні «Київський Політехнічний Інститут імені Ігоря Сікорського»

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова

Інформація