Здравствуйте. Вас мне посоветовали. Очень надеюсь, что вы возьмете мой заказ
ПРОЕКТ
4 контрольные точки.
Цель: провести полный цикл анализа данных и разработки модели машинного обучения, начиная от предварительной обработки данных и заканчивая интерпретацией результатов работы модели.
Задание 1
Формат файлов, в которых сдается проект: .ipynb + файл с датасетом. Обязательно все выводы писать в разметке markdown.
1. Найти датасет (не меньше 1000 строк, данные в столбцах должны быть категориальные и числовые). Обратите внимание на открытые источники данных, такие как Kaggle, UCI Machine Learning Repository, или использовать API для получения данных.
a. Оценить качество данных, их актуальность и достаточность для решения поставленной задачи.
2. Описание задачи.
a. Описать, какая задача решается. Какая целевая переменная. Что предсказываем.
b. Описать, какая ML задача решается. Классификация, регрессия, кластеризация и т.д.
3. Исследовать данные.
a. Построить релевантные графики (в обязательном порядке рассмотреть таргет, построить матрицу корреляций).
b. Посмотреть основные статистики данных.
c. Посмотреть срезы данных.
d. Подготовить краткие выводы о структуре данных, обнаруженных зависимостях и аномалиях.
Задание 2
1. Подготовить данные для дальнейшего обучения.
a. Заполнить пропуски, если требуется. Обосновать.
b. Убрать выбросы, если они есть, если их нужно убрать. Обосновать.
2. Выбрать метрику и обосновать свой выбор.
3. Перекодировать категориальные данные.
a. Обосновать выбор метода кодирования.
Задание 3
1. Разбить данные для тренировки и теста (отложенная выборка или кросс-валидация). Объяснить выбор метода и его преимущества.
2. Провести необходимую предобработку данных, если нужно.
a. Применить методы масштабирования, нормализации или стандартизации при необходимости.
b. Обосновать выбор метода предобработки. Или обосновать, почему она не нужна.
3. Обучить базовую модель.
4. Обучить простую модель (одну или две), сравнить метрику с базовой моделью.
Задание 4
1. Выбрать сложную модель. Обучить и сравнить качество с более простыми моделями.
2. Подобрать гиперпараметры для сложной модели.
3. Проверить качество работы модели с подобранными параметрами.
4. Интерпретировать результаты работы финальной (лучшей) модели.
a. Интерпретировать важность признаков/работу модели при помощи 2 виджетов на выбор.
b. Объяснить модель с помощью библиотеки shap.
c. Прокомментировать интерпретацию результатов с экспертной точки зрения. За время работы над данными вы уже можете понять какие-то зависимости, статистики.
В данном пункте надо описать, совпадает ли работа модели с вашими выводами о данных. 1 балла
d. Написать выводы.
ПОДХОДЯЩИЙ ВЫБОР МЕТОДОВ И ИХ ОБОСНОВАНИЕ В КАЖДОМ ЭТАПЕ ПОМОГУТ ВЫПОЛНИТЬ ЗАДАНИЯ ЭФФЕКТИВНО И ПОЛУЧИТЬ МАКСИМАЛЬНОЕ КОЛИЧЕСТВО БАЛЛОВ.
НЕОБХОДИМОЕ ПО
Jupyter notebook МК по установке https://www.dmitrymakarov.ru/python/jupyter-notebook-14/
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |