MapReduce-алгоритм построения инвертированного индекса

Выполнен
Заказ
5518451
Раздел
Программирование
Антиплагиат
Не указан
Срок сдачи
14 Авг 2023 в 19:55
Цена
5 000 ₽
Блокировка
10 дней
Размещен
31 Июл 2023 в 12:53
Просмотров
190
Описание работы

Курсовая работа по Распределённой обработке информации, работа с MapReduce. Требуется построить инвертированный индекс на основе модели MapReduce для коллекции документов википедии. Инвертированный индекс должен обрабатывать стоп-слова, а также содержать число появлений терминала в каждом документе Логин и пароль для связи с сервером выдам лично, когда автор возьмется за работу!

Требуется построить инвертированный индекс (inverted index) для заданного корпуса

текстов (текстового файла).

Входные данные map:

(docid, content)

Результирующий инвертированный индекс должен иметь следующую структуру:

(word, [, , ...])

• Статьи должны быть отсортированы в порядке убывания TF-IDF

(Term Frequency – Inverse Document Frequency)

• Для каждого слова ограничить список статей N наиболее релевантными

• Определить и исключить из индекса Top20 высокочастотных слов

При вычислении TF-IDF считаем, что:

• TF(t, d) — это число вхождений слова t в документ d (Wiki-статью)

• IDF(t, D) — обратная частота, с которой слово t встречается во множестве

документов D (Wiki-статьях): Формулу смотри в задании ddp-course

Программы должны быть написаны на языке Java (Apache Hadoop Java API)

Нужна такая же работа?
  • Разместите заказ
  • Выберите исполнителя
  • Получите результат
Гарантия на работу 1 год
Средний балл 4.96
Стоимость Назначаете сами
Эксперт Выбираете сами
Уникальность работы от 70%
Время выполнения заказа:
78 дней 22 часа 24 минуты
Выполнен
Отзыв о выполненном заказе
Нужна аналогичная работа?
Оформи быстрый заказ и узнай стоимость
Гарантированные бесплатные доработки
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Темы журнала
Показать ещё
Прямой эфир