Указания к выполнению работы.
Для выполнения этого практического задания вы можете воспользоваться грамматическим словарём oDict или разметкой OpenCorpora и др.
На вход подаются предложения вида "токен1 токен2 ... токенN". В предложениях расставлены знаки препинания, среди них могут быть только запятая, точка, вопросительный и восклицательный знаки. Предложения разделены переносом строки.
На выходе: для из входного предложения на выходе получаем последовательность вида: "токен1{лемма1=тег1} токен2{лемма2= тег2} ... токенN{леммаN=тегN}". Полученная последовательность не содержит исходных знаков препинания.
При выполнении лемматизации буквы е и ё считать равноправными, а также не учитывать регистр. Частеречные теги должны быть приведены к следующему инвентарю:
- существительные (S),
- прилагательные (A),
- глаголы, в том числе причастия и деепричастия (V),
- предлоги (PR),
- союзы (CONJ),
- сборная категория (ADV), включающая наречия, вводные слова, частицы, междометия.
Любым образом могут быть местоимения (включая наречные и предикативные), числительные, составные предлоги и союзы.
Указания к выполнению работы.
На вход подается массив текстов в формате JSON. Примеры текстов представлены в файле дополнительные материалы.json.
На выходе: массив рефератов в формате JSON, порядок которых рефератов соответствует порядку текстов во входных данных.
Максимальный размер каждого из рефератов составляет 300 вмсесте с пробелами.
Пример входа:
["Первый текст...", "Второй текст..."]
Пример выхода:
["Реферат первого текста...", "Реферат второго текста..."]