Целью исследования является построение ансамблированной модели, способной решить прикладную задачу диагностики заболеваний. Для достижения цели предполагается проанализировать предметную область, провести отбор и очистку данных, изучить различные ансамблевые методы машинного обучения и их применимость к выбранному набору данных.
Кроме того, планируется создание, обучение и тестирование моделей на основе выбранного набора данных о сердечно-сосудистых заболеваниях. После тестирования системы и оценки ее эффективности будут проведены оптимизация моделей для достижения наилучших результатов.
Исследование включает в себя три главы, а также введение, заключение, библиографию и приложение. Объем работы составляет 34 страницы, содержащих 11 источников. Используемый набор данных о сердечно-сосудистых заболеваниях объединяет информацию из нескольких источников и может быть использован для прогнозирования риска возникновения заболеваний сердца. Набор данных доступен в формате *.csv по ссылке: https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction/data
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ.. 5
1.2. Анализ и очистка набора данных. 7
1.3. Обзор ансамблевых методов машинного обучения. 20
2. ПРОЕКТИРОВАНИЕ И РЕАЛИЗАЦИЯ.. 22
2.1. Формирование обучающей и тестовой выборок. 22
2.2. Создание и обучение моделей, получение предсказаний. 23
1. Кузнецова О. Ю., Кузнецов Р. Н., Кузьмин А. В. Реализация ансамблевого метода машинного обучения для прогнозирования послеоперационных осложнений // Модели, системы, сети в экономике, технике, природе и обществе. 2023. № 2. С. 193–202. doi: 10.21685/2227-8486-2023-2-13
2. Ю. С. Кашницкий, Д. И. Игнатов, Ансамблевый метод машинного обучения, основанный на рекомендации классификаторов, Интеллектуальные системы. Теория и приложения, 2015, том 19, выпуск 4, 37–55
3. Loginom. Деревья решений: общие принципы [Электронный ресурс]: электронная энциклопедия для бизнес-анализа - / Loginom. - Электронные данные. Режим доступа: URL.: https://loginom.ru/blog/decision-tree-p1///, свободный - (дата обращения 22.04.2024)
4. С.Федотов, Ф.Синицин. Учебник по машинному обучению [Электронный ресурс]: Школа анализа данных Яндекс Режим доступа: URL.: https://education.yandex.ru/handbook/ml/article/about, свободный - (дата обращения 22.04.2024)
5. PEP8 - стиль кода в языке Python [Электронный ресурс]. Режим доступа: https://pep8.ru/doc/pep8/
6. Статья «Отличия LabelEncoder и OneHotEncoder в SciKit Learn» - [Электронный ресурс]. Режим доступа: https://habr.com/ru/articles/456294/
7. Статья «Ансамблевые методы машинного обучения в скоринге розничных клиентов» - [Электронный ресурс]. Режим доступа: https://www.nbrb.by/bv/pdf/articles/11056.pdf
8. Статья "Ансамблевые методы" [Электронный ресурс]. Режим доступа: https://scikit-learn.ru/1-11-ensemble-methods/
9. Статья "Ансамблевые методы машинного обучения" [Электронный ресурс]. Режим доступа: https://habr.com/ru/articles/571296/
10. Документация библиотеки Seaborn https://seaborn.pydata.org/
11. Документация библиотеки CatBoost https://catboost.ai/en/docs/