Задание
1. Найти датасет (не меньше 1000 строк, данные в столбцах должны быть категориальные и числовые). Обратите внимание на открытые источники данных, такие как Kaggle, UCI Machine Learning Repository, или использовать АРІ для получения данных. а. Оценить качество данных, их актуальность и достаточность для решения поставленной задачи.
2. Описание задачи.
а. Описать, какая задача решается. Какая целевая переменная. Что предсказываем.
b. Описать, какая ML задача решается. Классификация, регрессия, кластеризация и т.д.
3. Исследовать данные. а. Построить релевантные графики.
b. Посмотреть основные статистики данных. с. Посмотреть срезы данных при необходимости.
d. Подготовить краткие выводы о структуре данных, обнаруженных зависимостях и аномалиях.
4. Подготовить данные для дальнейшего обучения. а. Заполнить пропуски, если требуется.
b. Убрать выбросы, если они есть, если их нужно убрать. Обосновать.