Спосіб прискореного розпізнавання фейкових новин на основі обробки природної мови та видалення голосних літер у словах

Автор(и)

  • Л.Д. Міщенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
  • І.А. Клименко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0001-5345-8806

DOI:

https://doi.org/10.18372/2073-4751.73.17643

Ключові слова:

технологія Natural Language Processing, фейк, маніпуляція, аналіз тексту, відстань Левенштейна, векторне представлення слова

Анотація

Новинні веб-ресурси набувають більшої популярності в наші дні. Такі джерела інформації можуть використовувати довіру аудиторії для маніпулювання фактами та поширення фейків. Таким чином, захист від таких ресурсів є величезною проблемою сьогодення.

Найважливішою частиною будь-якого програмного забезпечення є його швидкість роботи. Фейки з'являються щодня, але сьогодні немає систем автоматичної перевірки фактів. Усі перевірки виконуються журналістами або напів автоматизованими системами, які або специфічні для невеликих завдань, або занадто повільні. Тому ця стаття пропонує спосіб перевірки фактів за допомогою NLP та алгоритму Левенштейна. При цьому, у способі запропоновано прискорений аналіз тексту, роблячи обчислення з мінімальним значенням векторного представлення слів. Це вдалося досягти на рівні лемітизації NLP за рахунок видалення голосних літер зі слів.

У наші часи, тема вивчена досить глибоко. Але більшість досліджень зосереджені на використанні технології NLP для природного аналізу мовлення в конкретних галузях, таких як пошук тексту, боти, розмітка тексту тощо. До того ж, не розглядалося зменшення векторного представлення слів для прискореного аналізу тексту та структурування його токенів.

Основне завдання дослідження полягає в розробці ефективної системи виявлення підробок за допомогою технології Natural Language Processing, яка показує результат доволі швидко за рахунок зменшення довжини слів, а не базуючись на попередньому навчанні системи.

У роботі доведено здатність технології NLP вирішувати завдання перевірки фактів. Проте ще є кілька напрямків для подальшої роботи. Наприклад, використання навчальної нейронної мережі для виявлення найбільш розповсюджених підробок або дослідження виникнення колізій у векторному представленні коротких слів без голосних літер.

Посилання

Mishchenko L., Klymenko I. Method for detecting fake news based on natural language processing. The VI International Scientific and Practical Conference “Modern ways of solving the problems in science in the world”, February 13-15, Warsaw, Poland. – P. 375-378. URL: https://eu-conf.com/ua/events/modern-ways-of-solving-the-problems-of-science-in-the-world/.

Zhou X., Zafarani R. A survey of fake news: Fundamental theories, detection methods, and opportunities. ACM Computing Surveys (CSUR), 2020. – Vol. 53 – No. 5. – P. 1-40.

Ruchansky N., Seo S., Liu Y. CSI: A hybrid deep model for fake news detection. Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. – 2017. – P. 797-806.

McCormick Ch. Word2Vec Tutorial – The Skip-Gram Model. – P. 1-5. URL: https://www.fer.unizg.hr/_download/repository/TAR-2020-reading-05.pdf.

Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality. Advances in neural information processing systems, 2013, – P. 26. URL: https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf.

Сonvert Word to Vector component. Microsoft documentation, 2021. URL: https://learn.microsoft.com/en-us/azure/machine-learning/component-reference/convert-word-to-vector.

##submission.downloads##

Опубліковано

2023-04-28

Номер

Розділ

Статті