Фільтр конфіденційної інформації

Автор(и)

  • Олексій Євгенович Безимянний Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»
  • Наталія Віталіївна Шаповал Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського» https://orcid.org/0000-0002-8509-6886

DOI:

https://doi.org/10.18372/1990-5548.78.18256

Ключові слова:

великі мовні моделі, фільтр конфіденційної інформації, вбудовування слів, промт ін’єкції, джейлбрейкінг, NLP модель, SBERT

Анотація

Дослідження проведено на тему запобігання різного роду атакам на великі мовні моделі (LLM), а також запобігання витоку конфіденційних даних при роботі з локальними текстовими базами даних. Дослідження виконується шляхом впровадження фільтра та його тестування на прикладі, який спрямований на фільтрацію запитів до моделі. Запропонований фільтр не блокує запит до LLM, а видаляє його частини, що набагато швидше та унеможливлює використання запиту зловмисником, оскільки руйнує його структуру. Фільтр використовує вбудовування слів для оцінки запиту до LLM, що разом із використанням хеш-таблиці для заборонених тем прискорює роботу фільтра. Для захисту від таких атак, як промт ін’єкція та атака швидкого витоку, фільтр використовує метод випадкового закриття послідовності. У процесі тестування було досягнуто значних покращень у підтримці безпеки даних, які використовує LLM. Зараз використання таких фільтрів у продуктових проектах і стартапах є надзвичайно важливим кроком, але бракує готових реалізацій фільтрів із подібними властивостями. Унікальність фільтра полягає в його незалежності від LLM і використанні семантичної подібності як точно налаштованого способу класифікації запитів.

Біографії авторів

Олексій Євгенович Безимянний , Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Дослідження проведено на тему запобігання різного роду атакам на великі мовні моделі, а також запобігання витоку конфіденційних даних при роботі з локальними текстовими базами даних. Дослідження виконується шляхом впровадження фільтра та його тестування на прикладі, який спрямований на фільтрацію запитів до моделі. Запропонований фільтр не блокує запит до великих мовних моделей, а видаляє його частини, що набагато швидше та унеможливлює використання запиту зловмисником, оскільки руйнує його структуру. Фільтр використовує вбудовування слів для оцінки запиту до великих мовних моделей, що разом із використанням хеш-таблиці для заборонених тем прискорює роботу фільтра. Для захисту від таких атак, як промт ін’єкція та атака швидкого витоку, фільтр використовує метод випадкового закриття послідовності. У процесі тестування було досягнуто значних покращень у підтримці безпеки даних, які використовує великі мовні моделі. Зараз використання таких фільтрів у продуктових проектах і стартапах є надзвичайно важливим кроком, але бракує готових реалізацій фільтрів із подібними властивостями. Унікальність фільтра полягає в його незалежності від великих мовних моделей і використанні семантичної подібності як точно налаштованого способу класифікації запитів.

Наталія Віталіївна Шаповал , Національний технічний університет України «Київський політехнічний інститут ім. Ігоря Сікорського»

Кандидат технічних наук

Доцент

Посилання

ChatGPT Question Filter. [Electronic resource]. URL:https://github.com/derwiki/llm-prompt-injection-filtering (accessed 30.09.23).

KANG, Daniel, et al. Exploiting programmatic behavior of llms: Dual-use through standard security attacks. arXiv preprint arXiv:2302.05733, 2023.

NI, Jianmo, et al. Sentence-t5: Scalable sentence encoders from pre-trained text-to-text models. arXiv preprint arXiv:2108.08877, 2021. https://doi.org/10.18653/v1/2022.findings-acl.146

Using GPT-Eliezer against ChatGPT Jailbreaking. [Electronic resource]. URL:https://www.alignmentforum.org/posts/pNcFYZnPdXyL2RfgA/using-gpt-eliezer-against-chatgpt-jailbreaking (accessed 30.09.23).

“Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,” Nils Reimers, Iryna Gurevych, 2019, arXiv:1908.10084.

##submission.downloads##

Опубліковано

2023-12-27

Номер

Розділ

КОМП’ЮТЕРНІ НАУКИ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ