Работа загружена в текстовом формате PDF (работа легко редактируется, форматируется, конвертируется в word).
Данная работа посвящена разработке приложения для анализа эмоционального тона текстовых комментариев. В исследовании используются современные методы обработки естественного языка (NLP) и глубокие нейронные сети (DNN) для автоматизации анализа пользовательских отзывов на платформе YouTube.
В ходе проекта решались следующие задачи:
1. Подготовка данных.
2. Проектирование нейросетевой модели.
3. Обучение модели.
4. Интеграция с пользовательским интерфейсом:
5. Статистика и визуализация.
В результате работы было создано веб-приложение, которое автоматически анализирует эмоциональный тон комментариев, предоставляя быстрые и точные выводы.
Данный проект призван помочь пользователям более глубоко понимать эмоциональные реакции на контент платформы YouTube.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ.................................................................................................................. 8
1. ОБЗОР ЛИТЕРАТУРЫ.......................................................................................... 11
1.1. Обзор существующих решений................................................................... 11
1.2. Обзор методов обработки естественного языка (NLP)..............................12
1.3. Техники естественной обработки языка..................................................... 13
1.3.1. Токенизация........................................................................................... 13
1.3.2. Приведение к нижнему регистру и удаление знаков препинания....14
1.3.3. Удаление стоп-слов............................................................................... 14
1.3.4. Удаление ссылок и HTML тегов.......................................................... 14
1.4. Глубокое обучение для задач NLP............................................................... 14
1.4.1. Простые нейронные сети......................................................................15
1.4.2. Рекуррентные нейронные сети............................................................ 16
1.4.3. Свёрточные нейронные сети................................................................ 18
2. ПОДХОД К РАЗРАБОТКЕ.................................................................................... 21
2.1. Обоснование выбора технологий и средств разработки........................... 21
2.2. Обоснование архитектурных решений....................................................... 22
2.3. Выбор датасета для обучения...................................................................... 23
2.4. Предварительная обработка данных........................................................... 24
2.4.1. Увеличение сбалансированности.........................................................24
2.4.2. Приведение к нижнему регистру и удаление знаков препинания....26
2.4.3. Токенизация........................................................................................... 26
2.4.4. Создание последовательностей........................................................... 26
2.5. Построение и обучение нейросетей............................................................ 27
2.5.1. Архитектуры нейросетей......................................................................27
2.5.2. Обучение моделей................................................................................. 28
2.6. Оценка и выбор модели................................................................................ 29
2.6.1. Метрики оценивания.............................................................................29
2.6.2. Выбор наилучшей модели.................................................................... 30
3. РЕАЛИЗАЦИЯ.......................................................................................................31
3.1. Реализация серверной части приложения...................................................31
3.1.1. YouTube Data API.................................................................................. 31
3.1.2. Использование модели нейросети....................................................... 35
3.1.3. Маршрутизация..................................................................................... 36
3.2. Реализация клиентской части приложения.................................................37
4. РЕЗУЛЬТАТЫ.........................................................................................................42
ЗАКЛЮЧЕНИЕ..........................................................................................................46
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.................................................47
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Comment analyzer - URL: https:/
3. YouTube Comments Analyzer - URL: https:/
4. Diksha Khurana, Aditya Koli, Kiran Khatter, and Sukhdev Singh, - Natural Language Processing: State of The Art, Current Trends and Challenges (2022, Multimedia Tools and Applications)
5. Roman Egger, Enes Gokce - Natural Language Processing (NLP):An Introduction: Making Sense of Textual Data (2022, Applied Data Science in Tourism)
всего 19 источников