Решить задачи по предмету инструменты Big Data

Отменен
Заказ
6436881
Раздел
Программирование
Тип работы
Антиплагиат
Не указан
Срок сдачи
15 Дек 2024 в 23:55
Цена
5 000 ₽
Блокировка
10 дней
Размещен
12 Дек 2024 в 13:31
Просмотров
32
Описание работы
Описание задания

Цель нашего задания - научиться использовать сложные статистики при помощи Spark RDD.

Это первая часть задания, посвященная изучению Spark.

Процедура сдачи задания:
  • Создайте ветку task-spark-rdd в репозитории, задание выполняйте в папке spark-rdd.
  • Каждое из подзаданий делайте в подпапках task1, task2.
  • После выполнения задания пришлите SSH-ссылку на репозиторий для проверки задания в автоматическом режиме.
  • Создайте merge request из ветки task-spark-rdd в ветку main своего репозитория. Merge request не сливайте - он необходим для проведения Code Review задания.
Часть 1 (2 балла)

Для данных о бизнесах выведите топ-10 бизнесов, которые работают большее количество времени в течение недели. При равном количестве минут отсортируйте данные по возрастанию business_id.

Пример вывода:

n_0UpQx1hsNbnPUSlodU8w\t2760

Pns2l4eNsfO8kk83dixA6A\t0

Пример запуска скрипта:

./run.sh

  • - это выход, который необходимо записать в HDFS. В  мы записываем весь RDD, но при этом на выходе выводим только ТОП-10.

P.S. Вы могли заметить, что задача похожа на MapReduce. Это так! Нам необходимо понять, что код на Spark пишется намного быстрее!

Часть 2 (3 балла)

В базе данных Yelp выделите топ-10 пользователей по следующему критерию:

  • топ-5 ревью собрали максимальное количество отзывов вида useful.

Мотивация: необходимо найти influencer-ов, но нам неважно найти тех, чьи отзывы в сумме популярны. Нам важно найти самые "зажигающие" отзывы!

Важно! Мы работаем в этой задаче с подмножеством людей и отзывов.

  • Подмножество пользователей располагается в HDFS в папке: /data/yelp/user_sample
  • Подмножество отзывов располагается в HDFS в папке /data/yelp/review_sample.

Для каждого из пользователей необходимо вывести количество друзей-друзей в социальной сети.

Формат вывода в выходную папку (id пользователя, сумма по топ-5 useful, количество друзей-друзей):

8g_iMtfSiwikVnbP2etR0A\t2034\t50

Сортировку осуществляем по убыванию критерия: количество друзей-друзей x сумма по top-5 useful.

Данные сохраняем в текстовом формате.

Пример запуска скрипта:

./run.sh

  •  - это выход, который необходимо записать в HDFS. В  мы записываем весь RDD, но при этом на выходе выводим только ТОП-10.

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.96
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир