Оригинальность по АП.Вуз на 27 октября 2024 года более 72%.
После оплаты вы сможете скачать документ дипломом. Вы покупаете готовую работу в формате pdf.
ВВЕДЕНИЕ ............................................................................................................ 6
ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ОБЗОР МЕТОДОВ МАШИННОГО
ОБУЧЕНИЯ ................................................................................................. 8
Постановка задачи ...................................................................................... 8
Методы автоматизированной обработки текста в сфере медицины ..... 10
Обработка русского языка ......................................................................... 14
Алгоритмы предобработки данных .......................................................... 15
1.4.1. Общие положения ................................................................................ 15
1.4.2. Нормализация ....................................................................................... 16
1.4.3. Токенизация .......................................................................................... 20
1.4.4. N-граммы ............................................................................................... 21
1.4.5. Стемматизация...................................................................................... 23
1.4.6. Лемматизация ....................................................................................... 25
1.4.7. Векторизация ........................................................................................ 27
1.4.8. Эмбеддинги ........................................................................................... 31
Задача классификации текстов: постановка и обзор методов решения 34
1.5.1. Семантический анализ ......................................................................... 36
1.5.2. Оценка качества моделей классификации ......................................... 36
1.5.3. Описание алгоритмов классификации ............................................... 38
Задача определения близости текстов: постановка и обзор методов решения 46
1.6.1. Меры расстояний .................................................................................. 48
1.6.2. Тематическое моделирование ............................................................. 51
Вывод по обзору методов решения задач определения близости и
классификации текстов ............................................................................ 54
ГЛАВА 2. РЕШЕНИЕ ЗАДАЧИ ОПРЕДЕЛЕНИЯ БЛИЗОСТИ ТЕКСТОВ .. 56
Подготовка текстов ..................................................................................... 56
TF-IDF и косинусная близость .................................................................. 58
Скрытый семантический анализ и косинусная близость ....................... 61
Скрытое размещение Дирихле и расхождение Дженсена- Шеннона ... 63
Сравнение методов определения близости текста 68
Вывод по решению задачи определения близости текстов 72
ГЛАВА 3. РЕШЕНИЕ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВ 74
Описание текстов 74
Подготовка текстов 78
Построение базовых моделей .................................................................... 82
Настройка гиперпараметров и улучшение качества классификации .... 85
Вывод по решению задачи классификации текстов 90
ЗАКЛЮЧЕНИЕ 92
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ........................................... 94
Приложение 1. R-скрипт предобработки данных .............................................. 98
Приложение 2. R-скрипт решения задачи определения близости текстов ..... 101
Приложение 3. R-скрипт решения задачи классификации текстов ................. 107