Задание
- Загрузите набор данных. Выведите голову таблицы (метод head), информацию о наборе данных (метод info). Подготовьте описание набора данных в указанном виде (см. рисунок ниже). Для перевода англоязычных названий можно использовать онлайн-переводчики. При наличии нескольких вариантов перевода выбирать подходящий исходя из здравого смысла.
- Подготовьте набор данных для последующего анализа. Для этого выполните следующие действия: Поскольку большинство наборов данных хранятся в упорядоченном виде, перед началом анализа перемешайте наборы. Выясните, имеются ли пропуски данных в каких-либо столбцах. При наличии удалите эти столбцы или заполните пропущенные значения. Проанализируйте распределение числовых переменных, а также порядковых категориальных признаков. Используйте графики и статистические функции. Выясните, есть ли выбросы и аномальные значения. При необходимости удалите их. Постройте матрицу корреляции. Напишите выводы по каждому этапу подготовки данных.
- Выберите столбцы Х и у для решения задачи линейной регрессии (поиска зависимости у от Х). Обоснуйте свой выбор. Разбейте выборку на обучающую и тестовую, размер тестовой выборки должен составлять 20-30% от всех данных. Обучите модель линейной регрессии на обучающей выборке и выполните предсказание y в зависимости от Х на тестовой выборке.
- Проверьте точность работы модели. Для этого выберите подходящие метрики сравнения реальных и предсказанных значений и вычислите значения этих метрик. Постройте график, на котором отображаются реальные значения и линия регрессии (см. рисунок ниже). Сделайте вывод.
- Оформите решение, добавив текстовые пояснения перед каждой ячейкой и выводы в конце каждого этапа работы.
В работе используется датасет insurance со следующими признаками:
Количество записей: 1338
Количество параметров (столбцов): 7
Описание параметров (столбцов):
1. age: int64: возраст
2. sex: object: пол
3. bmi: float64: индекс массы тела
4. children: int64: количество детей
5. smoker: object: курение (да/нет)
6. region: object: регион
7. charges: float64: медицинские расходы оплачиваемые страховкой
В архиве находится ipynb файл с кодом и результатами работы (подходит как для Google Colab, так и для Jupyter Notebook), а также результаты в виде PDF файла этого блокнота и используемый набор данных
Если Вам нужные любые подобные работы, то можете просто написать мне)