6360 Информатика big data

Отменен
Заказ
4421098
Раздел
Программирование
Предмет
Основы программирования
Антиплагиат
Не указан
Срок сдачи
4 Дек 2021 в 23:55
Цена
Договорная
Блокировка
15 дней
Размещен
1 Дек 2021 в 10:23
Просмотров
61
Описание работы

Информатика big data Организация обработки больших данных 04-12-2021

Организация обработки больших данных

Задание. Обработка реляционных данных с применением Hive, Pig, MapReduce

? Разработать базу данных (не менее 3 сущностей). Разработать не менее 5 запросов к БД, из них не менее 3 с применением JOIN.


? Реализовать БД и запросы на Hive и Pig.


? Реализовать запросы с применением паттерна MapReduce.


? Продемонстрировать, что результаты выполнения запросов на Hive, Pig совпадают с результатами, полученными с помощью собственной реализации MapReduce.


? Организовать хранение данных так, чтобы входные файлы, расположенные в HDFS, были общими для Hive, Pig, MapReduce.


Задание. Алгоритм кросс-корреляции

Необходимо решить задачу формирования списка рекомендованных товаров для пользователя интернет-магазина с применением алгоритма кросскорреляции (имея множество кортежей объектов, для каждой возможной пары объектов посчитать число кортежей, где они встречаются вместе).


1. Реализовать два алгоритма на MapReduce:


- Cross Correlation Pairs


- Cross Correlation Stripes


2. Написать генератор базы данных интернет-заказов (или взять готовую). Учесть, что заказ состоит из произвольного количества позиций (товаров).


3. Обработать алгоритмом кросс-корреляции базу данных заказов (подсчитать количество вхождений каждой пары товаров).


4. Реализовать компонент советника, не применяя паттерн MapReduce. Вводится название товара. Выводятся 10 товаров, которые чаще всего покупают с заданным товаром. Чтение результатов работы алгоритма кросс-корреляции из HDFS реализовать вручную (для Java — c помощью FileSystem API, для Python — с помощью библиотеки pyhdfs)

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.96
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир