Генерація синтетичних медичних даних за допомогою MDR-аналізу

Автор(и)

  • К.М. Сазонова Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"
  • О.К. Носовець Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"
  • В.О. Бабенко Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"
  • О.А. Аверьянова Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

DOI:

https://doi.org/10.18372/2306-1472.87.15719

Ключові слова:

генерація даних, синтетичні дані, ентропія, кореляція, направленість зв’язку, MDR-aналіз

Анотація

Мета: Метою даної статті є викладення алгоритму генерації синтетичних медичних даних для того, щоб доповнити маленькі вибірки даних. Методи: Для досягнення мети дослідження були використані такі методи, як: кореляційний аналіз (для виявлення значимих змінних та взаємозв’язків між ними), MDR-аналіз (для побудови логічних ланцюгів зв’язку між медичними даними) та регресійний аналіз (для моделювання змінних медичних даних, щоб використати це для генерації синтетичних даних). Результати: Була використана база даних пацієнтів з серцевою недостатністю, яка доступна у відкритому доступі, щоб перевірити розроблений алгоритм генерації синтетичних медичних даних у дій; в результаті були знайдені статистичні взаємозв’язки між даними, які використовувались для побудови моделей лінійної регресії. Обговорення: Запропонований алгоритм дозволяє за допомогою декількох простих, але в той час важливих дій виконати генерацію медичних даних, що дає можливість отримати великі масиви даних, які можна використовувати для реалізації методів машинного навчання у будь-яких задачах пов’язаних з медициною.

Біографії авторів

К.М. Сазонова, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Student. Department of Biomedical Cybernetics, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Research area: information technologies in medicine, computer science, data science, deep learning.

О.К. Носовець, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

PhD of Technical Science. Department of Biomedical Cybernetics, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Education: National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute» (2015). Research area: information technologies in medicine, computer science, data science, deep learning.

В.О. Бабенко, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Master of Science. Department of Biomedical Cybernetics, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Education: National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute» (2021). Research area: information technologies in medicine, computer science, data science, deep learning.

О.А. Аверьянова, Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського"

Senior Lecturer. Department of Biomedical Cybernetics, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute». Research area: information technologies in medicine, computer science, data science, deep learning, system analysis, information system design, IT management

Посилання

Patki N. The Synthetic Data Vault / N. Patki, R. Wedge, K. Veeramachaneni // IEEE International Conference on Data Science and Advanced Analytics (DSAA). – 2016. – Available at: https://bit.ly/3uU1IWU.

Towards Fairer Datasets: Filtering and Balancing teh Distribution of the People Subtree in the ImageNet Hierarchy / [K. Yang, K. Qinami, L. Fei-Fei та ін.] // Conference on Fairness, Accountabiility and Transparency. – 2020. – Available at: https://doi.org/10.1145/3351095.3372833.

Dodge S. A Study and Comparison of Human and Deep Learning Recognition Performance Under Visual Distortions / S. Dodge, L. Karam. – 2017. – Available at: https://arxiv.org/pdf/1705.02498.pdf.

Watson A. Using generative, differentially-private models to build privacy-enhancing, synthetic datasets from real data. / Alexander Watson. – 2020. – Available at: https://medium.com/gretel-ai/using-generative-differentially-private-models-to-build-privacy-enhancing-synthetic-datasets-c0633856184.

Privacy: Theory meets Practice on the Map / [A. Machanavajjhala, D. Kifer, J. Abowd et.al.]. – 2018. – Available at: https://bit.ly/33RpdnC.

Walters A. Why You Don’t Necessarily Need Data for Data Science / Austin Walters // Capital One Tech. – 2018. – Available at: https://bit.ly/2SZm4Qz.

Pouget-Abadie J. Generative Adversarial Networks / J. Pouget-Abadie, M. Mirza, B. Xu. – 2014. – Available at: https://arxiv.org/abs/1406.2661.

Fernández S. An application of recurrent neural networks to discriminative keyword spotting / S. Fernández, A. Graves, J. Schmidhuber // ICANN'07: Proceedings of the 17th international conference on Artificial neural networks. – 2007. – Available at: https://dl.acm.org/doi/10.5555/1778066.1778092.

Heart Failure Prediction Available at: https://www.kaggle.com/andrewmvd/heart-failure-clinical-data

Downloads

Опубліковано

27.07.2021

Як цитувати

Сазонова, К. ., Носовець, О. ., Бабенко, В. ., & Аверьянова, О. (2021). Генерація синтетичних медичних даних за допомогою MDR-аналізу. Вісник Національного авіаційного університету, 87(2), 31–36. https://doi.org/10.18372/2306-1472.87.15719

Номер

Розділ

Інформаційні технології