Генерація синтетичних медичних даних за допомогою MDR-аналізу
DOI:
https://doi.org/10.18372/2306-1472.87.15719Ключові слова:
генерація даних, синтетичні дані, ентропія, кореляція, направленість зв’язку, MDR-aналізАнотація
Мета: Метою даної статті є викладення алгоритму генерації синтетичних медичних даних для того, щоб доповнити маленькі вибірки даних. Методи: Для досягнення мети дослідження були використані такі методи, як: кореляційний аналіз (для виявлення значимих змінних та взаємозв’язків між ними), MDR-аналіз (для побудови логічних ланцюгів зв’язку між медичними даними) та регресійний аналіз (для моделювання змінних медичних даних, щоб використати це для генерації синтетичних даних). Результати: Була використана база даних пацієнтів з серцевою недостатністю, яка доступна у відкритому доступі, щоб перевірити розроблений алгоритм генерації синтетичних медичних даних у дій; в результаті були знайдені статистичні взаємозв’язки між даними, які використовувались для побудови моделей лінійної регресії. Обговорення: Запропонований алгоритм дозволяє за допомогою декількох простих, але в той час важливих дій виконати генерацію медичних даних, що дає можливість отримати великі масиви даних, які можна використовувати для реалізації методів машинного навчання у будь-яких задачах пов’язаних з медициною.
Посилання
Patki N. The Synthetic Data Vault / N. Patki, R. Wedge, K. Veeramachaneni // IEEE International Conference on Data Science and Advanced Analytics (DSAA). – 2016. – Available at: https://bit.ly/3uU1IWU.
Towards Fairer Datasets: Filtering and Balancing teh Distribution of the People Subtree in the ImageNet Hierarchy / [K. Yang, K. Qinami, L. Fei-Fei та ін.] // Conference on Fairness, Accountabiility and Transparency. – 2020. – Available at: https://doi.org/10.1145/3351095.3372833.
Dodge S. A Study and Comparison of Human and Deep Learning Recognition Performance Under Visual Distortions / S. Dodge, L. Karam. – 2017. – Available at: https://arxiv.org/pdf/1705.02498.pdf.
Watson A. Using generative, differentially-private models to build privacy-enhancing, synthetic datasets from real data. / Alexander Watson. – 2020. – Available at: https://medium.com/gretel-ai/using-generative-differentially-private-models-to-build-privacy-enhancing-synthetic-datasets-c0633856184.
Privacy: Theory meets Practice on the Map / [A. Machanavajjhala, D. Kifer, J. Abowd et.al.]. – 2018. – Available at: https://bit.ly/33RpdnC.
Walters A. Why You Don’t Necessarily Need Data for Data Science / Austin Walters // Capital One Tech. – 2018. – Available at: https://bit.ly/2SZm4Qz.
Pouget-Abadie J. Generative Adversarial Networks / J. Pouget-Abadie, M. Mirza, B. Xu. – 2014. – Available at: https://arxiv.org/abs/1406.2661.
Fernández S. An application of recurrent neural networks to discriminative keyword spotting / S. Fernández, A. Graves, J. Schmidhuber // ICANN'07: Proceedings of the 17th international conference on Artificial neural networks. – 2007. – Available at: https://dl.acm.org/doi/10.5555/1778066.1778092.
Heart Failure Prediction Available at: https://www.kaggle.com/andrewmvd/heart-failure-clinical-data
Downloads
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).