Информатика big data Организация обработки больших данных 04-12-2021
Организация обработки больших данных
Задание. Обработка реляционных данных с применением Hive, Pig, MapReduce
? Разработать базу данных (не менее 3 сущностей). Разработать не менее 5 запросов к БД, из них не менее 3 с применением JOIN.
? Реализовать БД и запросы на Hive и Pig.
? Реализовать запросы с применением паттерна MapReduce.
? Продемонстрировать, что результаты выполнения запросов на Hive, Pig совпадают с результатами, полученными с помощью собственной реализации MapReduce.
? Организовать хранение данных так, чтобы входные файлы, расположенные в HDFS, были общими для Hive, Pig, MapReduce.
Задание. Алгоритм кросс-корреляции
Необходимо решить задачу формирования списка рекомендованных товаров для пользователя интернет-магазина с применением алгоритма кросскорреляции (имея множество кортежей объектов, для каждой возможной пары объектов посчитать число кортежей, где они встречаются вместе).
1. Реализовать два алгоритма на MapReduce:
- Cross Correlation Pairs
- Cross Correlation Stripes
2. Написать генератор базы данных интернет-заказов (или взять готовую). Учесть, что заказ состоит из произвольного количества позиций (товаров).
3. Обработать алгоритмом кросс-корреляции базу данных заказов (подсчитать количество вхождений каждой пары товаров).
4. Реализовать компонент советника, не применяя паттерн MapReduce. Вводится название товара. Выводятся 10 товаров, которые чаще всего покупают с заданным товаром. Чтение результатов работы алгоритма кросс-корреляции из HDFS реализовать вручную (для Java — c помощью FileSystem API, для Python — с помощью библиотеки pyhdfs)
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |