Перенавчання у сфері машинного навчання
DOI:
https://doi.org/10.18372/2073-4751.78.18968Ключові слова:
перенавчання, регуляризація (dropout, L1, L2), компроміс зсуву та дисперсії, поліноміальна регресія, ВЧ-розмірністьАнотація
Проблема перенавчання в машинному навчанні є актуальною та важливою для досягнення високої точності та надійності прогнозування на реальних даних. Ця стаття присвячена розгляду проблеми перенавчання з математичної перспективи. Вона починається з загального огляду проблеми та її важливості для наукових та практичних завдань, таких як розпізнавання образів, прогнозування та діагностика. Починаючи з визначення ключових понять, таких як складність моделі, розмір вибірки, компроміс зсуву та дисперсії, текст розкриває взаємозв'язок між ними та вплив розміру вибірки на процес навчання. Для демонстрації цих концепцій розроблений код на мові програмування Python, який використовує поліноміальну регресію як модель для аналізу. Через створення синтетичних даних та підгонку різних моделей до них, ілюструється явище перенавчання та його вплив на точність прогнозів. Завершальні висновки наголошують на важливості розуміння математичних аспектів перенавчання для розробки надійних та ефективних моделей у машинному навчанні. Подальший аналіз останніх досліджень і публікацій у цій галузі демонструє різноманітні підходи до розв’язання проблеми, включаючи методи регуляризації, використання ансамблевих методів та розвиток нових архітектур нейронних мереж. Виокремлені невирішені аспекти, такі як знаходження оптимального балансу між складністю моделі та загальністю, які потребують подальшого дослідження. Остаточною метою статті є визначення ключових аспектів проблеми перенавчання та формулювання цілей для подальших досліджень в цій області.
Посилання
What is overfitting?. URL: https://www.ibm.com/topics/overfitting?source=post_page-----09af234e9ce4-------------------------------- (дата звернення: 21.04.2024).
Fang C. et al. 4 – The Overfitting Iceberg. URL: https://blog.ml.cmu.edu/2020/08/31/4-overfitting/ (дата звернення: 26.04.2024).
Dijkinga F. J. Explaining L1 and L2 regularization in machine learning. URL: https://medium.com/@fernando.dijkinga/explaining-l1-and-l2-regularization-in-machine-learning-2356ee91c8e3 (дата звернення: 26.04.2024).
Oppermann A. Regularization in Deep Learning – L1, L2, and Dropout. URL: https://towardsdatascience.com/regularization-in-deep-learning-l1-l2-and-dropout-377e75acc036 (дата звернення: 25.04.2024).
Vignesh Sh. The Perfect Fit for a DNN. URL: https://medium.com/analytics-vidhya/the-perfect-fit-for-a-dnn-596954c9ea39 (дата звернення: 26.04.2024).
##submission.downloads##
Опубліковано
Номер
Розділ
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).