1) Взять 3 текста одной тематики, каждый не менее 5к символов без пробелов. Очистить их от таблиц, картинок и формул.
2) Взять 4 текст похожей тематики. Очистить все от "лишних" слов (предллоги, местоимения, союзы, знаки препинания).
Получить список слов от преподавателя.
3) Посчитать статистику встречаемости слов в корпусе с сохранением результатов. (Корпус - 3 текста). Посчитать статистику встречаемости слов в тестовом тексте (4й текст). Сравнить результат статистик.
Если в слова суммарно в 4м тексте встречаются более 80%, то делаем вывод, что 4й текст схожей тематики с первыми тремя.
Обратить внимание на морфологи. изменяемости слов в русском языке. Реализовать по методу стемминг.
Мы сделали только первый пункт, получили тексты. Нашли еще один и слова получили от препода.
Гарантия на работу | 1 год |
Средний балл | 4.96 |
Стоимость | Назначаете сами |
Эксперт | Выбираете сами |
Уникальность работы | от 70% |