Курсовая работа по Распределённой обработке информации, работа с MapReduce. Требуется построить инвертированный индекс на основе модели MapReduce для коллекции документов википедии. Инвертированный индекс должен обрабатывать стоп-слова, а также содержать число появлений терминала в каждом документе Логин и пароль для связи с сервером выдам лично, когда автор возьмется за работу!
Требуется построить инвертированный индекс (inverted index) для заданного корпуса
текстов (текстового файла).
Входные данные map:
(docid, content)
Результирующий инвертированный индекс должен иметь следующую структуру:
(word, [, , ...])
• Статьи должны быть отсортированы в порядке убывания TF-IDF
(Term Frequency – Inverse Document Frequency)
• Для каждого слова ограничить список статей N наиболее релевантными
• Определить и исключить из индекса Top20 высокочастотных слов
При вычислении TF-IDF считаем, что:
• TF(t, d) — это число вхождений слова t в документ d (Wiki-статью)
• IDF(t, D) — обратная частота, с которой слово t встречается во множестве
документов D (Wiki-статьях): Формулу смотри в задании ddp-course
Программы должны быть написаны на языке Java (Apache Hadoop Java API)
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |