Дан набор данных по оттоку клиентов. Набор данных содержит всего 5 000 записей (т.е. абонентов). Данные доступны тут - https://drive.google.com/open?id=1ArslqEEno2hrr5tAs25..
Перечень полей:
• state – штат;
• account length – абонентский стаж;
• area code – код региона;
• phone number – номер телефона;
• international plan – тарифный план для международных звонков;
• voice mail plan – тарифный план для голосовой почты;
• number vmail messages – количество сообщений голосовой почты;
• total day minutes – общая длительность звонков в дневное время (мин);
• total day calls – общее количество звонков в дневное время;
• total day charge – общая стоимость звонков в дневное время;
• total eve minutes – общая длительность звонков в вечернее время (мин);
• total eve calls – общее количество звонков в вечернее время;
• total eve charge – общая стоимость звонков в вечернее время;
• total night minutes – общая длительность звонков в ночное время (мин);
• total night calls – общее количество звонков в ночное время;
• total night charge – общая стоимость звонков в ночное время;
• total intl minutes – общая длительность международных звонков (мин);
• total intl calls – общее количество международных звонков;
• total intl charge – общая стоимость международных звонков;
• number customer service calls – количество звонков в службу поддержки.
• churned – покинул ли клиент компанию
Ваша задача используя pandas (в Colaboratory или Jupyter) ответить на следующие вопросы:
1. Построить гистограмму количества звонков в техническую поддержку
2. Рассчитать и построить гистограмму общей длительности звонков клиента (дневных + ночных + вечерних + международны)
3. Собственноручно (не используя встроенных функций) рассчитать линейный коэффициент корреляции (https://ru.wikipedia.org/wiki/Корреляция) общего количества минут и количества звонков в техподдержку
4. Визуализировать точечный график по общему количеству минут / количеству звонков в поддержку, подкрасив точки в зависимости от оттока абонента
5. Вывести top-5 самых много и самых мало говорящих клиентов
6. Вывести долю оттока клиентов и среднюю стоимость минуты дневного времени разговора в зависимости от штата
7. перевести штат в one-hot формат при помощи pandas-функции get_dummies или удалите колонку, если вы делаете решение на pyspark
8. Разбить данные на множество для обучения и для проверки, отобрав признаки для обучения модели классификации (убрать номер телефона, код региона, признаки планов + все добавленные аттрибуты)
9. Привести данные к одному масштабу при помощи StandardScaler в случае Pandas.
10. Обучить какую-нибудь модель классификации и оценить качество (точность) на отложенной выборке
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |