Требования:
Необходимо предсказать риск проблем с сердцем (колонка output) на основе данных.
Задание:
рассмотреть не только knn, но и другие классификаторы, попробовать обучить несколько из них и сравнить полученный результат по метрикам качества на тесте.
Критерии, по которым проверяется работа:
Выполнена ли загрузка данных? (корректно ли загружен файл, все ли загрузилось и в правильном ли формате)
Есть ли первичное исследование? (аномалии, пропуски, корректность заполнения)
Есть ли основное исследование (EDA)? (баланс классов, линейные корреляции, группировки с целевым, тезисные выводы словами)
Есть ли предобработка? (кодирование данных - one-hot/label encoder, нормализация, train/val/test или train/test split, стратификация по балансировке)
Есть ли обучение алгоритма и перебор гиперпараметров? (grid search и не только, обучение алгоритма c лучшими параметрами)
Есть ли оценка алгоритма? (Разные метрики качества? Интерпретация ошибок)
Опциональные критерии:
Есть перебор параметров отличных от knn алгоритмов?
Есть ли аугментация признаков на train части?
Есть ли сравнение разных вариантов кодирования данных?
Есть ли обучение отличных (тык) от sklearn алгоритмов? (введение в pytorch хороший официальный туториал и туториалы на русском 1 и 2
А также нужны текстовые тезисные комментарии показывающие логику в обработке от и до.
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |