Дослідження впливу шуму в напівкерованому навчанні
DOI:
https://doi.org/10.18372/1990-5548.71.16816Ключові слова:
зашумлені данні, машинне навчання, напівкероване навчання, опорні векторні машиниАнотація
У статті розглядається проблема впливу шуму на точність у задачах напівккерованого навчання. Метою цієї статті є аналіз впливу шуму на точність моделей бінарної класифікації, створених за допомогою трьох напівкерованих алгоритмів навчання, а саме: Simply Recycled Selection (SRS), Incrementally Reinforced Selection (IRS) і Hybrid Algorithm (HYB). У якості базового класифікатора використано Support Vector Machine (SVM). Ми проаналізуємо різні алгоритми для обчислення матриць подібності, а саме Radial Bias Function, Cosine Simmilarity і K-Nearest Neighbours. Для цілей порівняльного аналізу використовуватимуться набори даних зі сховища UCI. Щоб перевірити вплив шуму, різна кількість штучно згенерованих випадково позначених зразків було введено в набір даних з використанням трьох стратегій (маркована, не маркована та змішана) і порівняно з базовим класифікатором, навченим з вихідним набором даних, і класифікатором, навченим на вихідному наборі даних зменшеного розміру. Результати показують, що введення випадкового шуму в марковані зразки погіршує точність моделі, а введення випадкового шуму в немарковані дані може навпаки підвищити точність моделі.
Ключові слова: зашумлені данні; машинне навчання; напівкероване навчання; опорні векторні машини.
Посилання
P. K. Mallapragada, et al., “SemiBoost: Boosting for semi-supervised learning,” IEEE Trans. Pattern Anal. and Machine Intell., vol. 312, no. 11, pp. 2000–2014, Nov. 2009. https://doi.org/10.1109/TPAMI.2008.235
T.-B. Le and S.-W. Kim, “On incrementally using a small portion of strong unlabeled data for semi-supervised learning algorithms,” Pattern Recognition Letters, vol. 41, pp. 53–64, May 2014. https://doi.org/10.1016/j.patrec.2013.08.026
Thanh-Binh Le, Sang-Woon Kim, “A Hybrid Selection Method of Helpful Unlabeled Data Applicable for Semi-Supervised Learning Algorithm,” IEIE Transactions on Smart Processing & Computing, 3(4), 2014, pp. 234–239. https://doi.org/10.5573/IEIESPC.2014.3.4.234
S. Suthaharan, “Support Vector Machine,” In: Machine Learning Models and Algorithms for Big Data Classification. Integrated Series in Information Systems, vol. 36, pp. 207–235, 2016. Springer, Boston, MA. https://doi.org/10.1007/978-1-4899-7641-3_9
Orr, Mark JL, Introduction to radial basis function networks, 1996.
Rahutomo, Faisal, Teruaki Kitasuka, and Masayoshi Aritsugi, "Semantic cosine similarity," the 7th International Student Conference on Advanced Science and Technology (ICAST), vol. 4, No. 1, 2012.
Yu, K., Ji, L. & Zhang, X. Kernel, “Nearest-Neighbor Algorithm,” Neural Processing Letters 15, 147–156, 2002. https://doi.org/10.1023/A:1015244902967
G. C. Cawley and N. L. C. Talbot, “Preventing over-fitting in model selection via Bayesian regularisation of the hyper-parameters,” Journal of Machine Learning Research, vol. 8, pp. 841–861, April 2007.
O. Chapelle, & A. Zien, “Semi-Supervised Classification by Low Density Separation,” In Tenth International Workshop on Artificial Intelligence and Statistics (AISTAT 2005), (2005). https://doi.org/10.7551/mitpress/9780262033589.001. 0001
D. Dua, and C. Graff, UCI Machine Learning Repository, 2019. [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Автори, які публікуються в цьому журналі, погоджуються з наступними умовами:
Автори зберігають авторські права та надають журналу право першої публікації роботи, одночасно ліцензованої за ліцензією Creative Commons Attribution License, яка дозволяє іншим поширювати роботу з посиланням на авторство роботи та її першу публікацію в цьому журналі.
Автори можуть укладати окремі додаткові договірні угоди щодо неексклюзивного розповсюдження опублікованої в журналі версії роботи (наприклад, розміщувати її в інституційному репозиторії або публікувати в книзі) з посиланням на її першу публікацію в цьому журналі.
Авторам дозволяється та заохочується розміщувати свої роботи онлайн (наприклад, в інституційних репозиторіях або на своєму вебсайті) до та під час процесу подання, оскільки це може призвести до продуктивного обміну, а також до більш раннього та більшого цитування опублікованих робіт (див. Вплив відкритого доступу).