Стремительное развитие сети Интернет и компьютерных технологий привело к резкому увеличению объема информации, потребляемой человеком. В связи с этим возникла необходимость в обработке, анализе и, что наиболее важно, классификации документов, написанных на естественных языках. Классификация документов является одной из главных задач в области обработки естественного языка (англ. Natural Language Processing, NLP). Системы, выполняющие такую задачу, имеют широкое применение: фильтрация спамов, классификация новостей, статей, определение тональности комментария/отзыва (положительный или отрицательный), результатов опросов и так далее. Компании, использующие такие системы, могут структурировать различные виды документов, что позволяет им экономить время на анализе информации и автоматизировать бизнес-процессы, связанные с обработкой текстов.
Современные подход к классификации текстов основывается на применении методов машинного обучения. Он удобен тем, что требует минимальное участие человека и позволяет обрабатывать большой объем данных [20]. Необходимо только предварительно разметить исходные тексты.
В машинном обучение выделяют несколько методов классификации текстов
[19]:
· вероятностные (например, метод Байеса)
· метрические (например, метод 𝑘 ближайших соседей)
· логические (метод деревьев решений)
· логистическая регрессия (метод опорных векторов)
· нейронные сети и глубокое обучение
В данной работе для классификации текстов будут использоваться нейронные
сети, а именно графовые нейронные сети. Концепция графовой сети была предложена совсем недавно, но несмотря на это, уже успела обрести большую популярность
Цель работы – исследование применимости графовых нейронных сетей для классификации текстов.
Объект исследования – классификация текстов.
Предмет исследования – использование графовых нейронных сетей для классификации текстов.
Для достижения поставленной цели необходимо решить следующие задачи:
· провести анализ современной литературы на тему графовых нейронных сетей и классификации текстов;
· собрать и подготовить датасет;
· представить тест в виде графа;
· построить модель графовой нейронной сети и обучить ее;
· провести эксперименты.
Результатом магистерской диссертации является обученная модель графовой нейронной сети для классификации текстов.
Введение.................................................................................................................... 3
Теоретические аспекты графовых нейронных сетей и методов классификации текстов....................................................................................................................... 5
1. Основные понятия теории графов.................................................................... 5
2. Основные понятия нейронной сети.................................................................. 6
3. Классификация нейронных сетей................................................................... 15
4. Оценка работы нейронной сети...................................................................... 17
5. Графовые нейронные сети.............................................................................. 22
6. Векторное представление............................................................................... 28
7. Графовое представление................................................................................. 33
Используемые методы и технологии................................................................... 36
1. Язык программирования Python................................................................... 36
2. PyTorch............................................................................................................ 37
3. Pandas.............................................................................................................. 38
Модули и описание работы программы............................................................. 40
1. Предварительная обработка текста............................................................... 40
2. Реализация нейросетевого модуля................................................................. 41
Заключение............................................................................................................. 46
Список литературы............................................................................................... 47
Приложение............................................................................................................ 50
1. Основы ИНС – Нейронные сети [Электронный ресурс]. – Режим доступа: https://neural.radkopeter.ru/chapter/основы-инс/ (дата обращения: 24.04.2023)
2. Введение в машинное обучение и искусственные нейронные сети (foobar167.github.io) [Электронный ресурс]. – Режим доступа: https://foobar167.github.io/page/vvedeniye-v-mashinnoye-obucheniye-i- iskusstvennyye-neyronnyye-seti.html (дата обращения:.05.2023)
3. Сивак М.А. Робастное обучение нейронных сетей с простой архитектурой для решения задач классификации: дис. … канд. тех. наук: 05.13.17 / Сивак Мария Алексеевна. – Новосибирск., 2022 – с. 111 Библиогр.: с. 34–36
4. siebenrock/activation-functions: Activation functions used in artificial neural networks (github.com) [Электронный ресурс]. – Режим доступа: https://github.com/siebenrock/activation-functions (дата обращения: 18.05.2023)
5. Функции активации нейросети: линейная, ReLu, Tahn, сигмоида [Электронный ресурс]. – Режим доступа: https://neurohive.io/ru/osnovy-data-science/activation- functions/ (дата обращения: 18.05.2023)
6. Графовые нейронные сети — Викиконспекты (ifmo.ru) [Электронный ресурс].
– Режим доступа: https://neerc.ifmo.ru/wiki/index.php?title=Графовые_нейронные_сети (дата обращения: .05.2023)
7. Графовые нейронные сети | Анализ малых данных (wordpress.com) [Электронный ресурс]. – Режим доступа: https://alexanderdyakonov.wordpress.com/2021/12/30/gnn/ (дата обращения:
.05.2023)
8. Абгалдаева Алина Александровна, Пушкин Алексей Юрьевич Применение теории графов в сфере информационных технологий // Universum: технические науки. 2023. №2-1 (107). URL: https://cyberleninka.ru/article/n/primenenie-teorii- grafov-v-sfere-informatsionnyh-tehnologiy (дата обращения: 04.06.2023).
9. Лекция 8 - KG Course 2021 (migalkin.github.io) [Электронный ресурс]. – Режим доступа: https://migalkin.github.io/kgcourse2021/lectures/lecture8 (дата обращения: 18.05.2023)
10. Оценка качества в задачах классификации и регрессии — Викиконспекты (ifmo.ru) [Электронный ресурс]. – Режим доступа: https://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задачах_классифи кации_и_регрессии (дата обращения: .05.2023)
11. Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, Petar Veličković.: Principal Neighbourhood Aggregation for Graph Nets. URL: https://arxiv.org/abs/2004.05718 (дата обращения: 29.05.2023)
12. McCalloch W.S., Pitts W., ″A Logical Calculus of Ideas Immanent in Nervous Activity,″ Bulletin of Mathematical Biophysics, Vol. 5, 1943, pp. 115–133, doi: 10.1007/BF02478259
13. Мак-Каллок У.С., Питтс В. Логическое исчисление идей, относящихся к нервной активности // В сб. «Автоматы» под ред. К.Э. Шеннона и Дж. Маккарти. – М.: Изд-во иностр. лит., 1956. – С. 363–384. (Перевод английской статьи 1943 г.)
14. Векторное представление слов — Викиконспекты (ifmo.ru) [Электронный ресурс]. – Режим доступа: https://neerc.ifmo.ru/wiki/index.php?title=Векторное_представление_слов (дата обращения: .0.2023)
15. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, Efficient Estimation of Word Representations in Vector Space (2013), International Conference on Learning Representations
16. Jeffrey Pennington, Richard Socher, and Christopher D. Manning, GloVe: Global Vectors for Word Representation (2014), Empirical Methods in Natural Language Processing
17. PyTorch — Википедия (wikipedia.org) [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/PyTorch (дата обращения: .0.2023)
18. pandas — Википедия (wikipedia.org) [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Pandas (дата обращения: .0.2023)
19. Т. В. Батура Методы автоматической классификации текстов // Программные продукты и системы. 2017. №1. URL: https://cyberleninka.ru/article/n/metody- avtomaticheskoy-klassifikatsii-tekstov (дата обращения: 04.06.2023)
20. А. И. Стрелец, В. С. Иванников, А. А. Орлов, А. В. Атавина Методы классификации текстовых данных по темам // Международный журнал гуманитарных и естественных наук. 2019. №6-1. URL: https://cyberleninka.ru/article/n/metody-klassifikatsii-tekstovyh-dannyh-po-temam (дата обращения: 04.06.2023).
21. Циликов Никита Сергеевич, Федосин Сергей Алексеевич Графовые нейронные сети // Вестник МГУ. 2012. №2. URL: https://cyberleninka.ru/article/n/grafovye-neyronnye-seti (дата обращения: 04.06.2023).
22. Rong Zhu, Kun Zhao, Hongxia Yang, Wei Lin, Chang Zhou, Baole Ai, Young Li, Jingren Zhou.: AliGraph: A Comprehensive Graph Neural Network Platform. URL: https://arxiv.org/abs/1902.08730 – (дата обращения: )
23. Find Open Datasets and Machine Learning Projects | Kaggle [Электронный ресурс]. – Режим доступа: https://www.kaggle.com/datasets – (дата обращения 28.05.2020).
24. François Rousseau and Michalis Vazirgiannis.: Graph-of-word and TW-IDF: new approach to ad hoc IR. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management (CIKM '13). Association for Computing Machinery, New York, NY, USA, 59–68. URL: https://doi.org/10.1145/2505515.2505671