Тема выпускной квалификационной работы – «Применение алгоритмов интеллектуального анализа текстовых данных».
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Введение.................................................................................................................. 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных..................................................................................................................... 7
1.1 Метод токенизации................................................................................. 9
1.2 Частота термина в документе (TF-IDF)................................................ 13
1.3 Методы стемминга и лемматизации..................................................... 15
1.4 Стоп-листинг........................................................................................ 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых
данных................................................................................................................... 22
2.1 Алгоритмы токенизации...................................................................... 22
2.2 Алгоритм TF-IDF................................................................................. 26
2.3 Алгоритм лемматизации WordNet....................................................... 29
2.4 Алгоритмы стоп-листинга.................................................................... 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных ... 35 3.1 Выбор среды разработки программы............................................................. 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio........................................................................................................... 35
3.1.2 Интегрированная среда разработки PyCharm..................................... 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv......................... 38
3.2 Реализация и тестирование программы............................................... 41
Заключение............................................................................................................ 44
Список используемой литературы........................................................................ 45
1. Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).
2. ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).
3. Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).
4. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).
5. Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.
6. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845–848.
7. Метод TF-IDF [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).
8. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.