Виявлення аномалій на основі машинного навчання за допомогою алгоритму Isolation Forest в аналізі даних великого обсягу
DOI:
https://doi.org/10.18372/2073-4751.83.20511Ключові слова:
виявлення аномалій, Isolation Forest, неконтрольоване навчання, калібрування порогу, багатовимірний аналіз, масштабована аналітика, інтерпретованістьАнотація
Ця стаття представляє прикладне дослідження неконтрольованого виявлення аномалій за допомогою Isolation Forest на великих багатовимірних сенсорних даних. Реалізовано рішення мовою Python, яке працює з даними з датчиків моніторингу якості повітря в місті Києві, об’єднує довідкові метадані, видаляє некоректні записи, обирає два неперервні індикатори та навчає за допомогою алгортиму Isolation Forest із заданими параметрами. Часовий аналіз показує, що аномалії концентруються в суміжних інтервалах, а не є ізольованими поодинокими точками, тоді як проекція на дві ознаки вказує, що багато спрацювань збігаються зі спільно високими значеннями, а інші виникають через нетипові комбінації значень, що підкреслює багатовимірні ефекти. Дослідження документує практичні переваги Isolation Forest, включно з мінімальними припущеннями щодо розподілу даних, прямим контролем обсягу сповіщень та майже лінійним масштабуванням, що підтримує повторне перенавчання. Воно також зазначає обмеження, такі як чутливість на малих вибірках через випадкову побудову дерев, залежність від калібрування порогу, яке може «дрейфувати» на різних наборах даних, та обмежену вбудовану пояснюваність окремих виявлених аномалій. Надано рекомендації з конфігурування, перевірки на стійкість та прості інструменти для підтримки впровадження та збереження стабільної продуктивності в умовах, що змінюються.
Посилання
Yepmo V., Smits G., Lesot M.-J., Pivert O. Leveraging an Isolation Forest to Anomaly Detection and Data Clustering. Journal of Systems and Software. 2024. URL:https://www.sciencedirect.com/science/article/abs/pii/S0169023X24000260.
DataCamp. Isolation Forest Guide: Explanation and Python Implementation. 2024.URL:https://www.datacamp.com/tutorial/isolation-forest.
Xu H., Pang G., Wang Y., Wang Y. Deep Isolation Forest for Anomaly Detection. arXiv preprint. 2023. arXiv:2206.06602.URL:https://arxiv.org/pdf/2206.06602.
Laskar M. T. R., Huang J. X., Smetana V., Stewart C., Pouw K., An A., Chan S., Liu L. Extending Isolation Forest for Anomaly Detection in Big Data via K-Means. ACM Digital Library. 2021. DOI: 10.1145/3460976.
Ащепков В. О. Використання моделі isolation forest для виявлення аномалій у даних вимірювань. Сучасний стан наукових досліджень та технологій в промисловості. 2024. № 1(27). С. 236–245. DOI:https://doi.org/10.30837/ITSSI.2024.27.236.
Міністерство захисту довкілля та природних ресурсів України. Дані моніторингу якості атмосферного повітря в Україні. 2024. URL: https://data.gov.ua/datastore/dump/f6755e36-f910-4482-8260-6a601b8d8da4
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).