Задание выполняется в Colab Notebooks.
Файл для работы.
Критерии оценки:
Качество проведения предварительного анализа данных. (6 баллов)
Обоснованность выбора модели. (4 баллов)
Правильность вычислений. (6 баллов)
Алгоритм работы:
Постановка задачи.
Данные. Что они описывают. Перевести названия столбцов.
Анализ данных. Какой алгоритм будет использоваться: алгоритм регрессии или алгоритм классификации и почему.
Обязательно поработать
- с пропущенными данными,
- построить гистограммы (отражающие частотное распределение признаков) для не менее, чем трех признаков,
- подсчитать описательную статистику по датасету
- вывести корреляционную матрицу, сделать выводы о данных (письменно, есть ли значимые связи, что они означают)
- построить график для отображения наиболее значимой зависимости между признаками.
Помимо приведенных заданий, выполнить тот анализ, который считаете необходимым именно с этими данными.
4. Выделение целевой переменной.
5. Разделение выборки на обучающую и тестовую.
6. Выбор модели. Обоснование выбора модели. Показать, что использовали разные классификаторы или регрессоры и выбрали именно данный.
7. Обучение модели.
8. Оценка модели. Можно ли улучшить качество модели?
9. Сравнение с истинным значением целевой переменной.
10. Выводы. Подробно, какая задача была поставлена, какая работа проведена, какие результаты получены и что они означают.
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |