Порівняльний аналіз методів векторизації тексту
DOI:
https://doi.org/10.18372/1990-5548.76.17663Ключові слова:
інтелектуальний аналіз тексту, обробка тексту природної мови, вставлення тексту, аналіз думок, машинне навчання, Word2Vec, TF-IDF, статистичні вкладення, контекстні вбудовуванняАнотація
В роботі розглянуто способи векторизації текстових властивостей природної мови в контексті задачі інтелектуального аналізу тексту. Проаналізовано найпоширеніші способи статистичного аналізу вилучення ознак та методи з урахуванням контексту. В роботі проведено опис вищезазначених типів обрамлення тексту та їх найпоширеніші реалізації. Виконано їх порівняльний аналіз, який показав зв’язок між типом задачі інтелектуального аналізу тексту та методом, що показує найкращі метрики. Описано та реалізовано топологію нейронної мережі, яка стоїть в основі вирішення задачі та отримання метрик. Порівняльний аналіз проведено за допомогою відносного аналізу часу теорії алгоритмів та метрик класифікації: accuracy, f1-score, precision, recall. Метрики класифікації узято з результатів побудови моделі нейронної мережі з використанням описаних методів обрамлення. В результаті в задачі аналізу тональності тексту найкращим виявився статистичний метод обрамлення на основі n-грамів символьних послідовностей.
Посилання
Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze, “Introduction to Information Retrieval,” Cambridge University Press, 2008. https://doi.org/10.1017/CBO9780511809071.
Tomáš Mikolov, Statistical language models based on neural networks, Ph.D. thesis, Brno University of Technology, 2012.
Tomáš Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, Efficient estimation of word representations in vector space. arXiv:1301.3781 [cs], January 2013.
Jeffrey Pennington, Richard Socher, and Christopher Manning, “GloVe: global vectors for word representation,” In Proc. of the Conference on Empirical Methods in Natural Language Process- ing (EMNLP), pp. 1532–1543, Doha, Qatar. Association for Computational Linguistics, October 2014. https://doi.org/10.3115/v1/D14-1162.
Jeffrey Pennington, Richard Socher, and Christopher Manning, “GloVe: global vectors for word representation,” In Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532–1543, Doha, Qatar. Association for Computational Linguistics, October 2014. https://doi.org/10.3115/v1/D14-1162.
T. T. Vu, V. A. Nguyen, & T. B. Le, “Combining Word2Vec and TF-IDF with Supervised Learning for Short Text Classification,” In 2020 3rd International Conference on Computational Intelligence (ICCI), 2020, pp. 241–245, IEEE.
M. Lin, S. Liao, & Y. Huang, “Hybrid word2vec and TF-IDF approach for sentiment classification,” Journal of Information Science, 45(6), 797–806, 2019.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються в цьому журналі, погоджуються з наступними умовами:
Автори зберігають авторські права та надають журналу право першої публікації роботи, одночасно ліцензованої за ліцензією Creative Commons Attribution License, яка дозволяє іншим поширювати роботу з посиланням на авторство роботи та її першу публікацію в цьому журналі.
Автори можуть укладати окремі додаткові договірні угоди щодо неексклюзивного розповсюдження опублікованої в журналі версії роботи (наприклад, розміщувати її в інституційному репозиторії або публікувати в книзі) з посиланням на її першу публікацію в цьому журналі.
Авторам дозволяється та заохочується розміщувати свої роботи онлайн (наприклад, в інституційних репозиторіях або на своєму вебсайті) до та під час процесу подання, оскільки це може призвести до продуктивного обміну, а також до більш раннього та більшого цитування опублікованих робіт (див. Вплив відкритого доступу).