Цель нашего задания - научиться использовать сложные статистики при помощи Spark RDD.
Это первая часть задания, посвященная изучению Spark.
Процедура сдачи задания:Для данных о бизнесах выведите топ-10 бизнесов, которые работают большее количество времени в течение недели. При равном количестве минут отсортируйте данные по возрастанию business_id.
n_0UpQx1hsNbnPUSlodU8w\t2760
Pns2l4eNsfO8kk83dixA6A\t0
./run.sh
P.S. Вы могли заметить, что задача похожа на MapReduce. Это так! Нам необходимо понять, что код на Spark пишется намного быстрее!
Часть 2 (3 балла)В базе данных Yelp выделите топ-10 пользователей по следующему критерию:
Мотивация: необходимо найти influencer-ов, но нам неважно найти тех, чьи отзывы в сумме популярны. Нам важно найти самые "зажигающие" отзывы!
Важно! Мы работаем в этой задаче с подмножеством людей и отзывов.
Для каждого из пользователей необходимо вывести количество друзей-друзей в социальной сети.
Формат вывода в выходную папку (id пользователя, сумма по топ-5 useful, количество друзей-друзей):
8g_iMtfSiwikVnbP2etR0A\t2034\t50
Сортировку осуществляем по убыванию критерия: количество друзей-друзей x сумма по top-5 useful.
Данные сохраняем в текстовом формате.
./run.sh
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |