Внимание! работа в PDF. Файл редактируется, конвертируется, формат - текстовый.
Данная работа посвящена разработке приложения для анализа эмоционального тона текстовых комментариев. В исследовании используются современные методы обработки естественного языка (NLP) и глубокие нейронные сети (DNN) для автоматизации анализа пользовательских отзывов на платформе YouTube.
В ходе проекта решались следующие задачи:
1. Подготовка данных.
2. Проектирование нейросетевой модели.
3. Обучение модели.
4. Интеграция с пользовательским интерфейсом:
5. Статистика и визуализация.
В результате работы было создано веб-приложение, которое автоматически анализирует эмоциональный тон комментариев, предоставляя быстрые и точные выводы.
Данный проект призван помочь пользователям более глубоко понимать эмоциональные реакции на контент платформы YouTube.
СОДЕРЖАНИЕ ВВЕДЕНИЕ 8
1. ОБЗОР ЛИТЕРАТУРЫ 11
1.1. Обзор существующих решений 11
1.2. Обзор методов обработки естественного языка (NLP) 12
1.3. Техники естественной обработки языка 13
1.3.1. Токенизация 13
1.3.2. Приведение к нижнему регистру и удаление знаков препинания 14
1.3.3. Удаление стоп-слов 14
1.3.4. Удаление ссылок и HTML тегов 14
1.4. Глубокое обучение для задач NLP 14
1.4.1. Простые нейронные сети 15
1.4.2. Рекуррентные нейронные сети 16
1.4.3. Свёрточные нейронные сети 18
2. ПОДХОД К РАЗРАБОТКЕ 21
2.1. Обоснование выбора технологий и средств разработки 21
2.2. Обоснование архитектурных решений 22
2.3. Выбор датасета для обучения 23
2.4. Предварительная обработка данных 24
2.4.1. Увеличение сбалансированности 24
2.4.2. Приведение к нижнему регистру и удаление знаков препинания 26
2.4.3. Токенизация 26
2.4.4. Создание последовательностей 26
2.5. Построение и обучение нейросетей 27
2.5.1. Архитектуры нейросетей 27
2.5.2. Обучение моделей 28
2.6. Оценка и выбор модели 29
2.6.1. Метрики оценивания 29
2.6.2. Выбор наилучшей модели 30
3. РЕАЛИЗАЦИЯ 31
3.1. Реализация серверной части приложения 31
3.1.1. YouTube Data API 31
3.1.2. Использование модели нейросети 35
3.1.3. Маршрутизация 36
3.2. Реализация клиентской части приложения 37
4. РЕЗУЛЬТАТЫ 42
ЗАКЛЮЧЕНИЕ 46
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 47
ПРИЛОЖЕНИЕ 1: Код для предварительной обработки данных, создания и обучения моделей 49
ПРИЛОЖЕНИЕ 2: Код серверной части 58
ПРИЛОЖЕНИЕ 3: Код клиентской части 61
1. Comment analyzer - URL:
2. Apptr YouTube Comments Analyzer - URL:
3. YouTube Comments Analyzer - URL:
4. Diksha Khurana, Aditya Koli, Kiran Khatter, and Sukhdev Singh,
5. Roman Egger, Enes Gokce - Natural Language Processing (NLP):An Introduction: Making Sense of Textual Data (2022, Applied Data Science in Tourism)
... всего 19 источников