Описание задания для группового проекта по дисциплине «Архитектура больших данных»
Цель: Получить практический опыт работы с большими данными. Развить навыки работы с различными инструментами и технологиями. Изучить этапы анализа данных от сбора до визуализации.
Задача: Выберите открытый набор данных объемом более 0.5 ГБ., например, данные о погоде, трафике, продажах или других областях.
Этапы проекта:
1) Разработать архитектуру решения:
Определите, как будут храниться данные (например, в MySQL, PostgreSQL, Hadoop).
Спроектируйте схему обработки данных (например, с использованием Hive).
2) Обработать данные:
Выберите инструмент для работы с данными (например, Python, R).
Подготовьте данные к анализу (очистка, преобразование).
Примените методы интеллектуального анализа данных (например, кластеризацию, регрессионный анализ).
(Дополнительное задание). Постройте модель машинного обучения для прогнозирования или классификации.
3) Проверить гипотезы:
Сформулируйте минимум три гипотезы на основе выбранного набора данных.
Пример гипотез:
⎯ Существует ли зависимость между температурой воздуха и количеством проданных мороженых?
⎯ Как изменение температуры воздуха влияет на количество дорожно-транспортных происшествий?
⎯ Каким образом время суток и день недели влияют на плотность трафика?
Используйте данные для проверки этих гипотез.
(Дополнительное задание). Используйте внешние источники данных для подтверждения или опровержения ваших гипотез.
4) Визуализировать результаты:
Выберите инструмент для визуализации (например, Grafana, Power BI, Superset).
Создайте интерактивные и информативные визуализации, чтобы продемонстрировать полученные выводы.
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |