В современном мире непрерывно растет потребность в автоматизации обработки больших объемов текстовой информации. В эпоху цифровизации, когда объемы данных постоянно увеличиваются, становится очевидной необходимость в разработке и совершенствовании инструментов для их анализа. Многочисленные компании и организации активно анализируют информацию, полученную из социальных сетей, для последующего применения в реализации эффективных маркетинговых стратегий. [1]
Семантический анализ текста — это процесс извлечения значимой информации из текстовых данных, который включает в себя идентификацию именованных сущностей, выявление связей между ними, определение эмоциональной окраски и многое другое. [2] Результаты этого процесса имеют широкий спектр применения, начиная от мониторинга социальных медиа и анализа потребительских отзывов до академических исследований в области лингвистики и искусственного интеллекта. [3]
В рамках данной выпускной квалификационной работы студенты планируют выполнить анализ существующих решений и методов и создать первую версию веб-сервиса для комплексного семантического анализа сущностей в текстовых данных. Веб-сервис позволит анализировать сообщения из Telegram-каналов, используя методы парсинга и комбинированные семантические модели для преобразования этой информации в структурированные данные, удобные для дальнейшего анализа. Предполагается, что веб-сервис будет включать следующий набор функциональных возможностей:
1) Извлечение и загрузка постов из Telegram-каналов в указанном объеме;
2) Выявление и группировка именованных сущностей в постах;
3) Выделение текстовых фрагментов, связанных с этими сущностями;
4) Анализ эмоциональной окраски выделенных фрагментов;
5) Представление результатов анализа в виде гистограммы или стек-баров для наглядной визуализации;
6) Создание отчетов с результатами анализа в различных форматах, включая сохранение графиков в формате PNG и экспорт полученных данных в файлы CSV.
Веб-сервис планируется к размещению на сервере и будет доступен из внешней/внутренней сети.
Данный веб-сервис применим в разнообразных сферах, включая маркетинг, социологические исследования, анализ культурных тенденций и многие другие. Он обеспечивает удобный и эффективный доступ к анализу данных из Telegram, значительно упрощая и ускоряя процесс получения важной информации для бизнеса и научных исследований. В журналистике платформа может быть использована для анализа общественного мнения по различным вопросам и выбора актуальных тем для публикаций. В социологии она может помочь в изучении мнений и взглядов пользователей относительно известных личностей. Таким образом, возможности платформы могут оказаться ценными для широкого круга профессионалов.
Оглавление
ВВЕДЕНИЕ 9
1 ОБЗОР ЛИТЕРАТУРЫ И АНАЛОГОВ 11
1.1 ОБЗОР СТАТЕЙ 11
1.2 СУЩЕСТВУЮЩИЕ АНАЛОГИ ПРИЛОЖЕНИЙ ДЛЯ АНАЛИЗА ТЕКСТОВ 14
2 АНАЛИЗ МЕТОДОВ, МОДЕЛЕЙ И ИНСТРУМЕНТОВ 16
2.1 МЕТОДЫ СЕМАНТИЧЕСКОГО АНАЛИЗА 16
2.2 ПРЕДОБРАБОТКА ТЕКСТА 22
2.3 ЛЕММАТИЗАЦИЯ 22
2.4 МУЛЬТИЯЗЫКОВЫЕ И РУССКОЯЗЫЧНЫЕ МОДЕЛИ ДЛЯ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ 23
2.5 МЕТОДЫ ВЫДЕЛЕНИЯ ТЕКСТОВЫХ ФРАГМЕНТОВ 34
2.6 МЕТОДЫ СЕНТИМЕНТАЛЬНОГО АНАЛИЗА 36
2.7 МЕТОД ПАРСИНГА TELEGRAM 39
2.8 МЕТОДЫ РЕАЛИЗАЦИИ ДАШБОРДА 40
2.9 ИНСТРУМЕНТЫ И ТЕХНОЛОГИИ 41
2.10 ВЫВОДЫ ПО ГЛАВЕ 41
3 ОПИСАНИЕ СОЗДАНИЯ АРХИТЕКТУРЫ 42
3.1 АРХИТЕКТУРА РАЗРАБАТЫВАЕМОГО МОДУЛЯ 42
3.2 ПАРСИНГ ТЕКСТОВЫХ ДАННЫХ 44
3.3 РАЗРАБОТКА ФУНКЦИИ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ 46
3.4 ВЫДЕЛЕНИЕ ТЕКСТОВЫХ ФРАГМЕНТОВ 49
3.5 РЕАЛИЗАЦИЯ СЕНТИМЕНТ-АНАЛИЗА 52
3.6 РЕАЛИЗАЦИЯ СТОЛБЧАТЫХ ГИСТОГРАММ 53
3.7 РАЗРАБОТКА ПОЛЬЗОВАТЕЛЬСКОГО ВЕБ-ИНТЕРФЕЙСА 60
4 ТЕСТИРОВАНИЕ 64
4.1 ТЕСТИРОВАНИЕ ОТДЕЛЬНЫХ МОДУЛЕЙ 64
4.2 ФУНКЦИОНАЛЬНОЕ ТЕСТИРОВАНИЕ 67
4.3 НАГРУЗОЧНОЕ ТЕСТИРОВАНИЕ 74
5 ЭКСПЕРИМЕНТЫ 78
ЗАКЛЮЧЕНИЕ 87
ЛИЧНЫЙ ВКЛАД УЧАСТНИКОВ 88
СПИСОК ИСТОЧНИКОВ 89
ПРИЛОЖЕНИЯ 95
РУКОВОДСТВО ПОЛЬЗОВАТЕЛЯ 95
2. Романова Т.В. Семантический анализ текста. 2011.
3. Чумакова М.В., Юсупова Н.И. Семантический анализ информации для принятия решений при управлении лояльностью клиентов в банковской сфере // Информационные технологии интеллектуальной поддержки принятия решений (ITIDS 2017). 2017. P. 36–41.
4. Митрофанова О.А., Мухин А.С., Паничева П.В. Автоматическая классификация лексики в русскоязычных текстах на основе латентного семантического анализа // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог–2007». М. 2007. P. 413–421.
5. Котельников Е.В., Клековкина М.В. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии. 2012. Vol. 2, № 11. P. 27.
6. Лукашевич Н.В., Четвёркин И.И. Открытое тестирование систем анализа тональности на материале русского языка // Искусственный интеллект и принятие решений. Федеральное государственное учреждение Федеральный исследовательский центр …, 2014. № 1. P. 25–33.
7. Базенков Н., Губанов Д.А. Обзор информационных систем анализа социальных сетей // Управление большими системами: сборник трудов. Федеральное государственное бюджетное учреждение науки «Институт проблем …, 2013. № 41. P. 357–394.
8. Батура Т.В. et al. Программный комплекс для анализа данных из социальных сетей // Международный журналПрограммные продукты и системы. Research Institute Centerprogamsystem, JSC, 2015. Vol. 39. P. 188–197.
9. Загороднев Д. Г. Методы извлечения сущностей и анализа контекста для русскоязычных текстов. 2023.
10. С. А. Сластников, Л. Ф. Жукова, И. В. Семичаснов. Приложение поиска, анализа и прогнозирования данных в социальных сетях. 2024.
11. Kostenetskiy P.S., Chulkevich R.A., Kozyrev V.I. HPC resources of the higher school of economics // Journal of Physics: Conference Series. IOP Publishing, 2021. Vol. 1740, № 1. P. 012050.
всего 61 источник