Реализовать алгоритм построения реферата. Получить реферат для следующего текста.
1. Текст разбивается на предложения.
2. Кажое предложение разбивается на слова.
3. Для каждого слова выполняется лемматизация.
4. Удаляются стоп-слова.
5. Формируется список ключевых слов (с максимальной частотой).
6. Для каждого ключевого слова формируется его вес.
7. Рассчитывается вес каждого предложения.
8. Список предложений сортируется по убыванию веса.
9. Отбираются первые предложения в отсортированном списке так, чтобы объем реферата составлял не более заданного значения процентов от объема текста.
9.1 Или отбирается заданное количество первых предложений в отсортированном списке.
10. Отобранные предложения сортируются в порядке появления в тексте.
11. Отсортированный список предложений предлагается в качестве реферата текста.
Дополнения:
1. Учет синонимов ключевых слов.
2. Дополнительные баллы за первое и последнее предложение в тексте.
3. Дополнительные баллы за наличие в предложении ключевых слов, входящих в название текста.
4. Штрафные баллы за длину предложения.
5. Ваши идеи.
Написать программу для расчета метрик ROUGE-1, ROUGE-2, ROUGE-3. Рассчитать значения метрик для образца-реферата.
Рассчитать значения метрик ROUGE-1, ROUGE-2, ROUGE-3 для рефератов, построенных с помощью Splitbrain, Визуальный мир, и библиотеки summa.
С помощью библиотеки summa получить ключевые слова для реферируемого текста.