Экспериментальное исследование методов семантического анализа текстов

Раздел
Программирование
Просмотров
105
Покупок
0
Антиплагиат
Не указан
Размещена
9 Авг в 14:55
ВУЗ
Не указан
Курс
Не указан
Стоимость
2 900 ₽
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
docx
Экспериментальное исследование методов семантического анализа текстов
9.4 Мбайт 2 900 ₽
Описание

В современном мире непрерывно растет потребность в автоматизации обработки больших объемов текстовой информации. В эпоху цифровизации, когда объемы данных постоянно увеличиваются, становится очевидной необходимость в разработке и совершенствовании инструментов для их анализа. Многочисленные компании и организации активно анализируют информацию, полученную из социальных сетей, для последующего применения в реализации эффективных маркетинговых стратегий. [1]

Семантический анализ текста — это процесс извлечения значимой информации из текстовых данных, который включает в себя идентификацию именованных сущностей, выявление связей между ними, определение эмоциональной окраски и многое другое. [2] Результаты этого процесса имеют широкий спектр применения, начиная от мониторинга социальных медиа и анализа потребительских отзывов до академических исследований в области лингвистики и искусственного интеллекта. [3]

В рамках данной выпускной квалификационной работы студенты планируют выполнить анализ существующих решений и методов и создать первую версию веб-сервиса для комплексного семантического анализа сущностей в текстовых данных. Веб-сервис позволит анализировать сообщения из Telegram-каналов, используя методы парсинга и комбинированные семантические модели для преобразования этой информации в структурированные данные, удобные для дальнейшего анализа. Предполагается, что веб-сервис будет включать следующий набор функциональных возможностей:

1) Извлечение и загрузка постов из Telegram-каналов в указанном объеме;

2) Выявление и группировка именованных сущностей в постах;

3) Выделение текстовых фрагментов, связанных с этими сущностями; 

4) Анализ эмоциональной окраски выделенных фрагментов;

5) Представление результатов анализа в виде гистограммы или стек-баров для наглядной визуализации;

6) Создание отчетов с результатами анализа в различных форматах, включая сохранение графиков в формате PNG и экспорт полученных данных в файлы CSV. 

Веб-сервис планируется к размещению на сервере и будет доступен из внешней/внутренней сети.

Данный веб-сервис применим в разнообразных сферах, включая маркетинг, социологические исследования, анализ культурных тенденций и многие другие. Он обеспечивает удобный и эффективный доступ к анализу данных из Telegram, значительно упрощая и ускоряя процесс получения важной информации для бизнеса и научных исследований. В журналистике платформа может быть использована для анализа общественного мнения по различным вопросам и выбора актуальных тем для публикаций. В социологии она может помочь в изучении мнений и взглядов пользователей относительно известных личностей. Таким образом, возможности платформы могут оказаться ценными для широкого круга профессионалов.

Оглавление

Оглавление

ВВЕДЕНИЕ 9

1 ОБЗОР ЛИТЕРАТУРЫ И АНАЛОГОВ 11

1.1 ОБЗОР СТАТЕЙ 11

1.2 СУЩЕСТВУЮЩИЕ АНАЛОГИ ПРИЛОЖЕНИЙ ДЛЯ АНАЛИЗА ТЕКСТОВ 14

2 АНАЛИЗ МЕТОДОВ, МОДЕЛЕЙ И ИНСТРУМЕНТОВ 16

2.1 МЕТОДЫ СЕМАНТИЧЕСКОГО АНАЛИЗА 16

2.2 ПРЕДОБРАБОТКА ТЕКСТА 22

2.3 ЛЕММАТИЗАЦИЯ 22

2.4 МУЛЬТИЯЗЫКОВЫЕ И РУССКОЯЗЫЧНЫЕ МОДЕЛИ ДЛЯ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ 23

2.5 МЕТОДЫ ВЫДЕЛЕНИЯ ТЕКСТОВЫХ ФРАГМЕНТОВ 34

2.6 МЕТОДЫ СЕНТИМЕНТАЛЬНОГО АНАЛИЗА 36

2.7 МЕТОД ПАРСИНГА TELEGRAM 39

2.8 МЕТОДЫ РЕАЛИЗАЦИИ ДАШБОРДА 40

2.9 ИНСТРУМЕНТЫ И ТЕХНОЛОГИИ 41

2.10 ВЫВОДЫ ПО ГЛАВЕ 41

3 ОПИСАНИЕ СОЗДАНИЯ АРХИТЕКТУРЫ 42

3.1 АРХИТЕКТУРА РАЗРАБАТЫВАЕМОГО МОДУЛЯ 42

3.2 ПАРСИНГ ТЕКСТОВЫХ ДАННЫХ 44

3.3 РАЗРАБОТКА ФУНКЦИИ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ 46

3.4 ВЫДЕЛЕНИЕ ТЕКСТОВЫХ ФРАГМЕНТОВ 49

3.5 РЕАЛИЗАЦИЯ СЕНТИМЕНТ-АНАЛИЗА 52

3.6 РЕАЛИЗАЦИЯ СТОЛБЧАТЫХ ГИСТОГРАММ 53

3.7 РАЗРАБОТКА ПОЛЬЗОВАТЕЛЬСКОГО ВЕБ-ИНТЕРФЕЙСА 60

4 ТЕСТИРОВАНИЕ 64

4.1 ТЕСТИРОВАНИЕ ОТДЕЛЬНЫХ МОДУЛЕЙ 64

4.2 ФУНКЦИОНАЛЬНОЕ ТЕСТИРОВАНИЕ 67

4.3 НАГРУЗОЧНОЕ ТЕСТИРОВАНИЕ 74

5 ЭКСПЕРИМЕНТЫ 78

ЗАКЛЮЧЕНИЕ 87

ЛИЧНЫЙ ВКЛАД УЧАСТНИКОВ 88

СПИСОК ИСТОЧНИКОВ 89

ПРИЛОЖЕНИЯ 95

РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ 95

Список литературы
  1. Святославна Т.О., Размиковна Д.Н. Социальные сети как инструмент продвижения компаний в сфере b2b // Наука, образование и культура. ООО «Олимп», 2019. № 9 (43).

2. Романова Т.В. Семантический анализ текста. 2011.

3. Чумакова М.В., Юсупова Н.И. Семантический анализ информации для принятия решений при управлении лояльностью клиентов в банковской сфере // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS 2017). 2017. P. 36–41.

4. Митрофанова О.А., Мухин А.С., Паничева П.В. Автоматическая классификация лексики в русскоязычных текстах на основе латентного семантического анализа // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог–2007». М. 2007. P. 413–421.

5. Котельников Е.В., Клековкина М.В. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии. 2012. Vol. 2, № 11. P. 27.

6. Лукашевич Н.В., Четвёркин И.И. Открытое тестирование систем анализа тональности на материале русского языка // Искусственный интеллект и принятие решений. Федеральное государственное учреждение Федеральный исследовательский центр …, 2014. № 1. P. 25–33.

7. Базенков Н., Губанов Д.А. Обзор информационных систем анализа социальных сетей // Управление большими системами: сборник трудов. Федеральное государственное бюджетное учреждение науки «Институт проблем …, 2013. № 41. P. 357–394.

8. Батура Т.В. et al. Программный комплекс для анализа данных из социальных сетей // Международный журналПрограммные продукты и системы. Research Institute Centerprogamsystem, JSC, 2015. Vol. 39. P. 188–197.

9. Загороднев Д. Г. Методы извлечения сущностей и анализа контекста для русскоязычных текстов. 2023.

10. С. А. Сластников, Л. Ф. Жукова, И. В. Семичаснов. Приложение поиска, анализа и прогнозирования данных в социальных сетях. 2024.

11. Kostenetskiy P.S., Chulkevich R.A., Kozyrev V.I. HPC resources of the higher school of economics // Journal of Physics: Conference Series. IOP Publishing, 2021. Vol. 1740, № 1. P. 012050.

всего 61 источник

 

Вам подходит эта работа?
Похожие работы
Информационные технологии
Контрольная работа Контрольная
14 Ноя в 21:03
22 +1
0 покупок
Информационные технологии
Тест Тест
12 Ноя в 19:49
19
0 покупок
Информационные технологии
Тест Тест
11 Ноя в 10:36
31
0 покупок
Другие работы автора
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
10 Ноя в 09:44
61
0 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
9 Ноя в 20:38
110
0 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
9 Ноя в 20:25
11
0 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
27 Окт в 14:04
470
10 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
27 Окт в 13:58
290
13 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
27 Окт в 13:45
937
14 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
27 Окт в 13:03
539
15 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
27 Окт в 12:56
365
10 покупок
Математическая физика
Задача Задача
30 Сен в 08:03
34
0 покупок
Линейное программирование
Задача Задача
30 Сен в 07:58
39
0 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
30 Сен в 07:56
37
0 покупок
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
30 Сен в 07:54
34
1 покупка
ТВиМС - Теория вероятностей и математическая статистика
Задача Задача
30 Сен в 07:52
32
0 покупок
Высшая математика
Задача Задача
30 Сен в 07:48
47
0 покупок
Методы оптимизации
Задача Задача
30 Сен в 07:47
30
0 покупок
Темы журнала
Показать ещё
Прямой эфир