На 1 февраля 2023 года оригинальность более 80%
Могу проверить вам актуальную оригинальность работы при покупке, пишите в личку.
Оригинал документа в pdf, конвертация в Word автоматическая (в word могут быть недочеты, которые вы легко исправите самостоятельно)
В данной работе были рассмотрены проблемы при работе с наборами данных в биомедицине, которые затрудняют применение классических моделей машинного обучения. Этот список проблем включает ограниченность по размеру, несбалансированность классов, пропущенные значения, большое количество признаков и другие. В ходе исследования были выведены инструменты для их решения и также описано их влияние на различные модели, которые применяются для решения задач классификации, кластеризации и регрессии.
В ходе разработки программного кода были построены модели машинного обучения с применением описанных инструментов. Для написания кода был использован язык программирования Python, который является одним из основных инструментов для осуществления интеллектуального анализа данных.
В современном мире существует необходимость хранения и обработки
огромного количества информации и данных. Аналитики и исследователи изучают данные, с целью найти возможные закономерности и зависимости между различными показателями. Благодаря увеличению вычислительной мощности, памяти и способности генерации ошеломляющих объемов данных компьютеры используются для выполнения широкого спектра сложных задач, с которыми им удается справляться с впечатляющей скоростью и точностью. Машинное обучение – один из наиболее значимых инструментов, который помогает продвигать прогресс в развитии искусственного интеллекта, а также участвует в работе с данными и их анализе.
Основным инструментом машинного обучения, как научной области, является статистика. Статистические методы помогают осуществлять разработку проектов прогнозного моделирования, а также интерпретировать результаты полученной модели. Машинное обучение также включает в себя и математику и компьютерные науки. Фундаментальные математические знания важны, чтобы анализировать результаты применения алгоритмов обработ-ки данных, и, в частности, для понимания алгоритмов построения классификаторов. А компьютерные науки используются непосредственно как инструмент для построения моделей машинного обучения.
Машинное обучение широко используется как в научных кругах, так и в таких прикладных предметных областях: фондовые, валютные рынки, демография, маркетинг, бизнес, банковская система. На данный момент практически любая область требует использования анализа данных и методов машинного обучения для стимулирования разработки «интеллектуальных продуктов», способных делать точные прогнозы с использованием различных источников данных.
В нашей работе мы рассмотрим одну из важнейших областей, где применяется машинное обучение и интеллектуальный анализ данных -биомедицина. Биомедицина – это раздел медицины, изучающий организм человека с точки зрения теории, его строение, функции в состоянии болезни, их диагностики, коррекции и лечения. В биомедицине так же собираются данные о пациентах, начиная от анализов крови, заканчивая томографией мозга. В совокупности некоторый набор показателей может напрямую сказываться на факторы появления конкретной болезни, а также, возможность выявления высокого риска возникновения неотложных медицинских ситуаций, таких как рецидив или переход в другое болезненное состояние. Благодаря возможности комплексного анализа существующих данных область биомедицины может выйти на совершенно новый уровень и открыть новые методы для лечения болезней и их избежание.
В частности, применение машинного обучения в биомедицине способно решить следующие задачи:
• Определить вид заболевания
• Выбрать оптимальную стратегию лечения
• Спрогнозировать развития болезни
• Вычислить риск возможных осложнений в будущем
• Выявить синдромы и признаки определенной болезни
Содержание ........................................................................................................................ 3 Введение ............................................................................................................................. 4 1. Теоретический аспект проблемы малого набора данных ....................................... 8
1.1 Необходимые сведения из машинного обучения .................................................. 8 1.2 История применения машинного обучения в биомедицине .............................. 12 1.3 Основные проблемы работы с малыми наборами данных в биомедицине ...... 15
2. Основные подходы для работы с малыми наборами данных .............................. 24 2.1 Алгоритмы работы с данными .............................................................................. 25 2.2 Показатели точности модели ................................................................................ 33 2.3 Инструменты для решения проблем малого набора данных ............................. 38
3. Применение иструментов по работе с малыми наборами данных ...................... 46 3.1 Обучение моделей .................................................................................................. 46 3.2 Результаты ............................................................................................................... 59
Заключение ....................................................................................................................... 61 Список используемой литературы ................................................................................. 62 Приложения...................................................................................................................... 65
1. Rong, G. Artificial Intelligence in Healthcare: Review and Prediction Case
Studies. / G. Rong, A. Mendez, E.B. Assi, B. Bo Zhao, M. Sawan // Engineering 6 (2020) 291-301
2. Sidey-Gibbons, J.A.M. Machine learning in medicine: a practical introduction /
J. A.M. Sidey-Gibbons, C.J. Sidey-Gibbons // Sidey-Gibbons and Sidey-Gibbons BMC Medical Research Methodology (2019) 19:64
3. Forman, G. Learning from Little: Comparison of Classifiers Given Little Training. / G. Forman, I. Cohen// PKDD 2004, LNAI 3202, pp. 161–172, 2004.
4. Shaikhina, T. Machine Learning for Predictive Modelling based on Small Data in Biomedical Engineering. / T. Shaikhina, D. Lowe, S. Daga, D. Briggs, R.
Higgins, N. Khovanova.// IFAC-PapersOnLine 48-20 (2015) 469–474
5. Tanwani, A.K. Guidelines to Select Machine Learning Scheme for
Classification of Biomedical Datasets. /A.K. Tanwani, J. Afridi, M.Z. Shafiq, M. Farooq// EvoBIO 2009, LNCS 5483, pp. 128–139, 2009.
6. Segovia, F. Multivariate analysis of dual-point amyloid PET intended to assist
the diagnosis of Alzheimer’s disease. /F. Segovia, J. Ramírez, D. Castillo-Barnes, D. Salas-Gonzalez, M. Gómez-Río, P. Sopena-Novales, C. Phillips, Y. Zhang, J.M. Górriz// Neurocomputing 417 (2020) 1-9.
7. Su, C. Mining genetic and transcriptomic data using machine learning approaches in Parkinson’s disease./ C. Su, J. Tong, F. Wang// npj Parkinson’s
Disease (2020) 6:24
8. Jubair, S. A novel approach to identify subtype-specifc network biomarkers
of breast cancer survivability. / S. Jubair, A. Alkhateeb, A.A. Tabl, L. Rueda,
A. Ngom //Network Modeling Analysis in Health Informatics and Bioinformatics (2020) 9:43
9. Schperberg, A.V. Machine learning model to predict oncologic outcomes for
drugs in randomized clinical trials. Int. J. Cancer. / A.V. Schperberg, A. Boichard, I.F. Tsigelny, S.B. Richard, R. Kurzrock// 2020;147:2537–2549.
10. Sarrouti, M. A Machine Learning-based Method for Question Type Classification in Biomedical Question Answering. /M. Sarrouti, S.O.E. Alaoui//
Methods Inf Med 2017; 56: 209–216.
11. Nguyen, D.H. Recent advances and prospects of computational methods for
metabolite identification: a review with emphasis on machine learning approaches. /D.H. Nguyen, C.H. Nguyen, H. Mamitsuka// Briefings in Bioinformatics, 20(6), 2019, 2028–2043.
12. Tran, T. Risk stratification using data from electronic medical records better predicts suicide risks than clinician assessments. /T. Tran, W. Luo, D. Phung,
R. Harvey, M. Berk, R.L. Kennedy, S. Venkatesh // Tran et al. BMC Psychiatry 2014, 14:76.
13. Foster, K.R. Machine learning, medical diagnosis, and biomedical engineering research – commentary. /K.R. Foster, R. Koprowski, J.D Skufca// Foster et al. BioMedical Engineering OnLine 2014, 13:94.
14. Podgorelec, V. Decision Trees: An Overview and Their Use in Medicine. /V. Podgorelec, P. Kokol, B. Stiglic, I. Rozman // Journal of Medical Systems, Vol.
26, No. 5, October 2002
15. Bone, D. Applying Machine Learning to Facilitate Autism Diagnostics: Pitfalls
and Promises. / D. Bone, M.S. Goodwin, M.P. Black, C. Lee, K. Audhkhasi, S.Narayanan// J Autism Dev Disord (2015) 45:1121–1136
16. Campbell, C. Machine Learning Methodology in Bioinformatics. / C. Campbell
// Springer Handbook of Bio- / Neuroinformatics (2014) 185:206
17. Steyerberg, E.W. Internal and external validation of predictive models: A
simulation study of bias and precision in small samples. / E.W. Steyerberg, S.E. Bleeker, H.A. Moll, D.E. Grobbee, K.G.E. Moons // Journal of Clinical Epidemiology 56 (2003) 441–447.
18. Zitnika, M., Nguyenb, F., Wang, B., Leskovec, J., Goldenberg, A., Hoffman,
M.M. Machine Learning for Integrating Data in Biology and Medicine: Principles, Practice, and Opportunities. /M. Zitnika, F. Nguyenb, B.Wang, J.
Leskovec, A. Goldenberg, M.M. Hoffman //Information Fusion 50 (2019) 71:91
19. Holder, L.B. Machine learning for epigenetics and future medical applications.
/L.B. Holder, M.M. Haque, M.K. Skinner //ISSN: 1559-2294 (Print) 1559-2308.
20. Habr.com: сайт. – URL: https://habr.com/ru/post/470650/ (дата обращения
01.03.2021)