Спосіб прискореного розпізнавання фейкових новин на основі обробки природної мови та видалення голосних літер у словах

Л.Д. Міщенко; І.А. Клименко

doi:10.18372/2073-4751.73.17643

Спосіб прискореного розпізнавання фейкових новин на основі обробки природної мови та видалення голосних літер у словах

Автор(и)

Л.Д. Міщенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
І.А. Клименко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0001-5345-8806

DOI:

https://doi.org/10.18372/2073-4751.73.17643

Ключові слова:

технологія Natural Language Processing, фейк, маніпуляція, аналіз тексту, відстань Левенштейна, векторне представлення слова

Анотація

Новинні веб-ресурси набувають більшої популярності в наші дні. Такі джерела інформації можуть використовувати довіру аудиторії для маніпулювання фактами та поширення фейків. Таким чином, захист від таких ресурсів є величезною проблемою сьогодення.

Найважливішою частиною будь-якого програмного забезпечення є його швидкість роботи. Фейки з'являються щодня, але сьогодні немає систем автоматичної перевірки фактів. Усі перевірки виконуються журналістами або напів автоматизованими системами, які або специфічні для невеликих завдань, або занадто повільні. Тому ця стаття пропонує спосіб перевірки фактів за допомогою NLP та алгоритму Левенштейна. При цьому, у способі запропоновано прискорений аналіз тексту, роблячи обчислення з мінімальним значенням векторного представлення слів. Це вдалося досягти на рівні лемітизації NLP за рахунок видалення голосних літер зі слів.

У наші часи, тема вивчена досить глибоко. Але більшість досліджень зосереджені на використанні технології NLP для природного аналізу мовлення в конкретних галузях, таких як пошук тексту, боти, розмітка тексту тощо. До того ж, не розглядалося зменшення векторного представлення слів для прискореного аналізу тексту та структурування його токенів.

Основне завдання дослідження полягає в розробці ефективної системи виявлення підробок за допомогою технології Natural Language Processing, яка показує результат доволі швидко за рахунок зменшення довжини слів, а не базуючись на попередньому навчанні системи.

У роботі доведено здатність технології NLP вирішувати завдання перевірки фактів. Проте ще є кілька напрямків для подальшої роботи. Наприклад, використання навчальної нейронної мережі для виявлення найбільш розповсюджених підробок або дослідження виникнення колізій у векторному представленні коротких слів без голосних літер.

Посилання

Mishchenko L., Klymenko I. Method for detecting fake news based on natural language processing. The VI International Scientific and Practical Conference “Modern ways of solving the problems in science in the world”, February 13-15, Warsaw, Poland. – P. 375-378. URL: https://eu-conf.com/ua/events/modern-ways-of-solving-the-problems-of-science-in-the-world/.

Zhou X., Zafarani R. A survey of fake news: Fundamental theories, detection methods, and opportunities. ACM Computing Surveys (CSUR), 2020. – Vol. 53 – No. 5. – P. 1-40.

Ruchansky N., Seo S., Liu Y. CSI: A hybrid deep model for fake news detection. Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. – 2017. – P. 797-806.

McCormick Ch. Word2Vec Tutorial – The Skip-Gram Model. – P. 1-5. URL: https://www.fer.unizg.hr/_download/repository/TAR-2020-reading-05.pdf.

Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality. Advances in neural information processing systems, 2013, – P. 26. URL: https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf.

Сonvert Word to Vector component. Microsoft documentation, 2021. URL: https://learn.microsoft.com/en-us/azure/machine-learning/component-reference/convert-word-to-vector.

##submission.downloads##

Опубліковано

2023-04-28

Як цитувати

Міщенко, Л., & Клименко, І. (2023). Спосіб прискореного розпізнавання фейкових новин на основі обробки природної мови та видалення голосних літер у словах. Проблеми iнформатизацiї та управлiння, 1(73), 39–44. https://doi.org/10.18372/2073-4751.73.17643

Завантажити посилання

Номер

Том 1 № 73 (2023)

Розділ

Статті

Ліцензія

Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:

Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.

Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.

Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

Спосіб прискореного розпізнавання фейкових новин на основі обробки природної мови та видалення голосних літер у словах

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

##plugins.block.developedBy.blockTitle##

Мова

Інформація

Подати статтю