Применение алгоритмов интеллектуального анализа текстовых данных

Раздел
Программирование
Тип
Просмотров
207
Покупок
0
Антиплагиат
Не указан
Размещена
9 Ноя 2021 в 20:56
ВУЗ
Не указан
Курс
Не указан
Стоимость
800 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
docx
75информатика 5
970 Кбайт 800 ₽
Описание

Тема выпускной квалификационной работы – «Применение алгоритмов интеллектуального анализа текстовых данных».

Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.

Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.

Оглавление

Введение.................................................................................................................. 5

Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных..................................................................................................................... 7

1.1  Метод токенизации................................................................................. 9

1.2  Частота термина в документе (TF-IDF)................................................ 13

1.3  Методы стемминга и лемматизации..................................................... 15

1.4  Стоп-листинг........................................................................................ 19

Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых

данных................................................................................................................... 22

2.1  Алгоритмы токенизации...................................................................... 22

2.2  Алгоритм TF-IDF................................................................................. 26

2.3  Алгоритм лемматизации WordNet....................................................... 29

2.4  Алгоритмы стоп-листинга.................................................................... 31

Глава 3 Разработка программы интеллектуального анализа текстовых данных ... 35 3.1 Выбор среды разработки программы............................................................. 35

3.1.1  Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio........................................................................................................... 35

3.1.2  Интегрированная среда разработки PyCharm..................................... 37

3.1.3  Интегрированная среда разработки Eclipse + PyDEv......................... 38

3.2  Реализация и тестирование программы............................................... 41

Заключение............................................................................................................ 44

Список используемой литературы........................................................................ 45

Список литературы

1.      Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).

2.      ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).

3.      Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).

4.        Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).

5.      Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.

6.      Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845–848.

7.      Метод           TF-IDF          [Электронный          ресурс].          URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).

8.      Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.

Вам подходит эта работа?
Похожие работы
Информатика
Отчет по практике Практика
7 Ноя в 10:35
7 +7
0 покупок
Информатика
Отчет по практике Практика
6 Ноя в 21:32
8 +8
0 покупок
Информатика
Тест Тест
6 Ноя в 17:01
10 +10
0 покупок
Информатика
Отчет по практике Практика
6 Ноя в 15:08
20 +4
0 покупок
Другие работы автора
Банковское дело
Тест Тест
25 Мая 2022 в 19:10
342
1 покупка
Микроэкономика
Тест Тест
20 Мар 2022 в 12:04
343
1 покупка
Адвокатура
Тест Тест
26 Фев 2022 в 18:53
347
3 покупки
Логистика
Тест Тест
26 Фев 2022 в 18:48
341
0 покупок
Право
Тест Тест
26 Фев 2022 в 18:44
804
12 покупок
Педагогика
Тест Тест
26 Фев 2022 в 18:40
351 +1
0 покупок
Социальная психология
Тест Тест
10 Янв 2022 в 19:14
318
3 покупки
Юриспруденция
Задача Задача
10 Янв 2022 в 19:08
408
1 покупка
История
Задача Задача
10 Янв 2022 в 18:54
304
0 покупок
Зарубежная история
Тест Тест
10 Янв 2022 в 18:51
368
3 покупки
Психология
Тест Тест
9 Дек 2021 в 19:28
386
1 покупка
Трудовое право
Тест Тест
9 Дек 2021 в 19:10
354
2 покупки
Правовые основы бизнеса
Тест Тест
9 Дек 2021 в 18:43
230
0 покупок
Педагогика
Тест Тест
7 Дек 2021 в 19:42
244 +1
2 покупки
Педагогика
Тест Тест
7 Дек 2021 в 19:23
343
3 покупки
История
Тест Тест
7 Дек 2021 в 19:01
173
0 покупок
История
Тест Тест
7 Дек 2021 в 18:46
171
0 покупок
История Отечества
Тест Тест
7 Дек 2021 в 18:32
258
0 покупок
Психология
Тест Тест
7 Дек 2021 в 18:22
314
11 покупок
Темы журнала
Показать ещё
Прямой эфир