Виявлення аномалій на основі машинного навчання за допомогою алгоритму Isolation Forest в аналізі даних великого обсягу

Автор(и)

  • М.О. Калашник

DOI:

https://doi.org/10.18372/2073-4751.83.20511

Ключові слова:

виявлення аномалій, Isolation Forest, неконтрольоване навчання, калібрування порогу, багатовимірний аналіз, масштабована аналітика, інтерпретованість

Анотація

Ця стаття представляє прикладне дослідження неконтрольованого виявлення аномалій за допомогою Isolation Forest на великих багатовимірних сенсорних даних. Реалізовано рішення мовою Python, яке працює з даними з датчиків моніторингу якості повітря в місті Києві, об’єднує довідкові метадані, видаляє некоректні записи, обирає два неперервні індикатори та навчає за допомогою алгортиму Isolation Forest із заданими параметрами. Часовий аналіз показує, що аномалії концентруються в суміжних інтервалах, а не є ізольованими поодинокими точками, тоді як проекція на дві ознаки вказує, що багато спрацювань збігаються зі спільно високими значеннями, а інші виникають через нетипові комбінації значень, що підкреслює багатовимірні ефекти. Дослідження документує практичні переваги Isolation Forest, включно з мінімальними припущеннями щодо розподілу даних, прямим контролем обсягу сповіщень та майже лінійним масштабуванням, що підтримує повторне перенавчання. Воно також зазначає обмеження, такі як чутливість на малих вибірках через випадкову побудову дерев, залежність від калібрування порогу, яке може «дрейфувати» на різних наборах даних, та обмежену вбудовану пояснюваність окремих виявлених аномалій. Надано рекомендації з конфігурування, перевірки на стійкість та прості інструменти для підтримки впровадження та збереження стабільної продуктивності в умовах, що змінюються.

Посилання

Yepmo V., Smits G., Lesot M.-J., Pivert O. Leveraging an Isolation Forest to Anomaly Detection and Data Clustering. Journal of Systems and Software. 2024. URL:https://www.sciencedirect.com/science/article/abs/pii/S0169023X24000260.

DataCamp. Isolation Forest Guide: Explanation and Python Implementation. 2024.URL:https://www.datacamp.com/tutorial/isolation-forest.

Xu H., Pang G., Wang Y., Wang Y. Deep Isolation Forest for Anomaly Detection. arXiv preprint. 2023. arXiv:2206.06602.URL:https://arxiv.org/pdf/2206.06602.

Laskar M. T. R., Huang J. X., Smetana V., Stewart C., Pouw K., An A., Chan S., Liu L. Extending Isolation Forest for Anomaly Detection in Big Data via K-Means. ACM Digital Library. 2021. DOI: 10.1145/3460976.

Ащепков В. О. Використання моделі isolation forest для виявлення аномалій у даних вимірювань. Сучасний стан наукових досліджень та технологій в промисловості. 2024. № 1(27). С. 236–245. DOI:https://doi.org/10.30837/ITSSI.2024.27.236.

Міністерство захисту довкілля та природних ресурсів України. Дані моніторингу якості атмосферного повітря в Україні. 2024. URL: https://data.gov.ua/datastore/dump/f6755e36-f910-4482-8260-6a601b8d8da4

##submission.downloads##

Опубліковано

2025-12-19

Номер

Розділ

Статті