Особливості обчислення інформаційної ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну стегосистему
DOI:
https://doi.org/10.18372/2225-5036.24.12954Ключові слова:
лінгвістична стеганографія, протидія методам стеганографії, інформаційна ентропія, семантичне стиснення, межа семантичного стиснення, семантична надлишковість, стегоаналіз, текстова стеганографія, видалення стегоповідомленняАнотація
У статті, на основі відомих методів обчислення ентропії тексту проводиться їх удосконалення та описуються особливості обчислення інформаційної ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну стегосистему, реалізовану в однойменному програмному комплексі, формалізується задача визначення ентропії тексту природньої мови в контексті подальшого дискурсного аналізу та видалення семантичної надлишковості. Вводяться додаткові параметри, що сприяють визначенню семантичної ентропії осмисленого та штучно згенерованого тексту для проведення атаки семантичним стиснення на лінгвістичну стегосистему, контейнером для якої виступає текстова інформація природньої (англійської) мова. Обґрунтовуються розбіжності ентропії для різних стилів мови та пояснюється її збільшення зі зміною стилю завдяки потребі додавання до використаного словнику загальної термінології спеціалізованих словників. Крім особливостей розрахунку умовної та безумовної ентропії у випадку використання програмного комплексу проведення атаки на лінгвістичну стегосистему, наведено розрахунок потужності використаного у ньому словнику та прописаних правил граматики, що і є додатковими параметрами, які зумовлюють обчислення ентропії в конкретному випадку, наводиться розрахунок максимальної ентропії (для неосмисленого тексту) та кількості інформації, що несе одне слово чи граматична форма у випадку максимальної та реальної ентропії. Крім того, наводиться обчислення межі семантичного стиснення та формалізовано задачу визначення надлишкової смислової інформації. Таким чином, стає можливим визначення якості проведення атаки стисненням, що проводиться на основі використання відповідного програмного комплексу. Отримані результати можуть бути використані в подальших дослідженнях для удосконалення засобів проведення атаки, що дозволить підвищити її ефективність за рахунок максимального наближення до межі семантичного стиснення.Посилання
В. Грибунин, И. Оков, И. Туринцев «Цифровая стеганография». Москва, СОЛОН-ПРЕСС, 263 с., 2009.
Я. Тарасенко, «Програмний комплекс проведення атаки на лінгвістичну стегосистему», Безпека інформації, №24(1), с. 56-61, 2018.
Я. Тарасенко, «Експериментальне дослідження роботи програмного комплексу проведення атаки на лінгвістичну стегосистему», Захист інформації, Том 20, № 2, c. 79-88, 2018.
В. Мищенко, Ю. Виланский, «Ущербные тексты и многоканальная криптографія». Минск, Энциклопедикс, 292 с., 2007.
Z. Chen, L. Huang, Z. Yu, Xi. Zhao, Xu. Zhao «Effective Linguistic Steganography Detection», 8th International Conference on Computer and Information Technology Workshops, Sidney, Australia, July 08-11, pp. 224-229, 2008.
C. Bentz, D. Alikaniotis, M. Cysouw, R. Ferrer-i-Cancho «The Entropy of Words – Learnability and Expressivity across More than 1000 Languages», Entropy, №19(6):275, 2017. URL: http://www.mdpi.com /1099-4300/19/6/275/htm.
A. Herbelot, M. Ganesalingam, «Measuring semantic content in distributional vectors», Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, August 04-09, Vol. 2, pp. 440-445, 2013.
Z. Jiapeng, Y. Yang, L. Tingwen, S. Jinqiao, «Towards Personal Relation Extraction Based on Sentence Pattern Tree», China Conference on Knowledge Graph and Semantic Computing, Beijing, China, September 19-22, Vol. 650, pp. 92-103, 2016.
В. Иванов, «Избранные труды по семиотике и истории культуры. Том 4: Знаковые системы культуры искусства и науки». Москва, Языки славянских культур, 792 с., 2007.
R. Ospanova, «Calculating Information Entropy of Language Texts», World Applied Sciences Journal, №22(1), pp. 41-45, 2013.
С. Гусаренко, «О семантических структурах дискурса и семантической энтропии», Известия Волгоградского государственного педагогического университета, № 5, с. 71-74, 2007.
Н. Валгина, «Теория текста». Москва, Логос, 280 с., 2003.
Е. Зверева, Е. Лебедько, «Сборник примеров и задач по основам теории информации и кодирования сообщений». СПб, НИУ ИТМО, 76 с., 2014.