Внимание. Работа выложена в текстовом формате PDF (работа легко форматируется, редактируется, конвертируется в word).
Целью работы является разработка информационной системы, основанной на методах анализа текстовых данных, для автоматизации обработки естественного языка и анализа текстовых данных.
Для выполнения работы по теме Система автоматизации обработки естественного языка и анализа текстовых данных необходимо решить следующие задачи:
1. Обзор существующих методов и алгоритмов обработки естественного языка (NLP) и анализа текстовых данных.
2. Изучение и анализ математических и статистических моделей, используемых в NLP, для анализа текстов и извлечения информации из них.
3. Проведение экспериментов для оценки эффективности различных методов обработки естественного языка и анализа текстовых данных.
4. Разработка программного продукта, реализующего систему автоматизации обработки естественного языка и анализа текстовых данных.
5. Анализ результатов экспериментов и оценка качества обработки текстов и извлечения информации из них.
6. Выводы и заключение на основе проведенного исследования.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ
1.1 Разновидности естественного языка
1.2 Методы обработки естественного языка
1.3 Технологии классификации
1.3.1 Примеры задач классификации
1.3.2 Сравнение методов классификации
1.4 Существующие подходы
1.5 Оценка вызовов и трендов в NLP
1.6 Постановка задачи
ГЛАВА 2 МЕТОДОЛОГИЯ И ТЕСТОВЫЕ ДАННЫЕ
2.1 Сбор данных
2.2 Алгоритм для суммаризации текста
2.3 Инструмент для разработки
2.3.1 Метрики оценки качества текста
ГЛАВА 3. РЕАЛИЗАЦИЯ
3.1 Подготовка данных
3.2 Токенизация текста
3.3 Удаление стоп-слов
3.4 Генерация резюме
3.5 Использование метрик
ЗАКЛЮЧЕНИЕ
46 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ А
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Краткая история NLP — Natural Language Processing [Электронный ресурс] – URL:
2. The Georgetown-IBM Experiment Demonstrated in January 1954 [Электронный ресурс] – URL:
3. Извлечение признаков из текстовых данных с использованием TF-IDF [Электронный ресурс] – URL:
4. Языки в киберпространстве [Электронный ресурс] – URL:
5. Петрова М. А., ТИПЫ НЕМОДАЛЬНЫХ ЗНАЧЕНИЙ МОДАЛЬНЫХ ПРЕДИКАТОВ (НА МАТЕРИАЛЕ СЛАВЯНСКИХ И ГЕРМАНСКИХ ЯЗЫКОВ) [Электронный ресурс] –
Всего 20 источников