Вывести описательную статистику, визуализировать данные.
При необходимости очистить данные (пропущенные значения, выбросы, полные дубликаты и т.д.)
Пропущенные значения попробовать удалить, если получается так, что удаляется не слишком много (в пределах 10-20 записей) то лучше удалить.
Если масштаб переменных сильно различается их нужно стандартизовать
Выбрать столбцы для кластерного анализа руководствуясь логикой данных и здравым смыслом.
Провести кластерный анализ (иерархический, к-средних, dbscan), сравнить результаты и сделать выводы. Описать полученные кластеры.
В качестве примера: https://colab.research.google.com/drive/1luf1THmIAty4KC5NGuWYqJ48T8rp5Orr?usp=sharing
Реализовать любой другой метод кластерного анализа, не входящий в предыдущий пункт. Описать его теоретические основы, подробно объяснить функции и разобрать реализацию на python.
Работу с python выполнить в коллабе. Необходимо объяснить каждый шаг и объяснить каждый график. Так же нужно написать введение и заключение. Описать теорию всех используемых методов кластерного анализа.
Коллаб с почти выполненным заданием если что можно доработать:
https://colab.research.google.com/drive/1bWAB9TNYAHK3cvCvao8pKR1xAwV-VSMC?usp=sharing
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |