Нейросетевые подходы в компьютерном зрении стали неотъемлемой частью повседневной жизни. Они используются в приложениях для поиска похожих товаров, распознавания лиц для идентификации личности, а также для распознавания услуг.
Одной из первых нейронных сетей является AlexNet [1], которая значительно превзошла классические подходы в области классификации изображений на наборе данных ImageNet [2]. Эта модель стала первым значительным шагом в направлении создания глубоких сверточных сетей, способных обрабатывать большой объем данных и достигать высоких показателей точности в задачах компьютерного зрения. Данная работа впоследствии привела к популярности использования свёрточных архитектур [3] при решении задач компьютерного зрения.
В исследовании, описанном в работе [4], была представлена архитектура Vision Transformer, которая показала преимущество в задачах классификации изображений по сравнению со сверточными архитектурами, доминировавшими в области компьютерного зрения на тот момент. Данный прирост в точности связан с тем, что для обучения Vision Transformer использовалось большое количество обучающих данных.
Успех в улучшении производительности при наличии большого объема данных связан с тем, что Vision Transformer характеризуется меньшим индуктивным смещением, что позволяет модели эффективнее генерализировать данные по сравнению со сверточными нейронными сетями. Однако при недостатке данных Vision Transformer отстает от сверточных сетей в плане производительности. В таких условиях возникает вопрос о возможности применения Vision Transformer в условиях ограниченного объема данных. Один из возможных подходов к увеличению производительности в таких условиях заключается в добавлении дополнительных индуктивных смещений.
Таким образом, была поставлена следующая цель: разработать метод регуляризации, позволяющий повысить производительность
Vision Transformer в условиях небольшого количества данных. В соответствии с поставленной целью требуется решить следующие задачи
изучить предметную область и существующие подходы регуляризации нейронной сети Vision Transformer,
разработать и реализовать метод регуляризации,
провести эксперименты с предложенным подходом,
проанализировать полученные результаты.
ВВЕДЕНИЕ ................................................................................................... 3
1. Описание предметной области ........................................................... 5
1.1. Vision Transformer .............................................................................. 5
1.1.1. Кодирование позиций ........................................................................ 6
1.1.2. Механизм Multi-Head Attention ......................................................... 7
1.1.3. Архитектура ....................................................................................... 8
1.2. Сравнение со свёрточными сетями .................................................... 8
1.3. Индуктивные смещения в Vision Transformer ................................. 10
1.4. Существующие подходы регуляризации Vision Transformer 11
1.4.1. Метод Spatial Attention-based Regularization .................................. 11
1.4.2. Метод ARViT-2D ............................................................................. 13
1.4.3. Метод DeiT ....................................................................................... 14
2. Предложенный метод ....................................................................... 16
2.1. Описание концепции ......................................................................... 16
2.2. Схема регуляризация ....................................................................... 16
2.3. Области применения ......................................................................... 18
3. Описание экспериментов .................................................................. 21
3.1. Задача классификации ...................................................................... 21
3.1.1. Наборы данных ............................................................................... 22
3.1.2. Результаты ....................................................................................... 24
3.2. Задача обнаружения объектов ......................................................... 28
3.2.1. Наборы данных ............................................................................... 28
3.2.2. Результаты ....................................................................................... 29
3.3. Задача языкового моделирования ................................................... 30
3.3.1. Наборы данных ............................................................................... 30
3.3.2. Результаты ....................................................................................... 31
ЗАКЛЮЧЕНИЕ ........................................................................................... 34
СПИСОК ЛИТЕРАТУРЫ .......................................................................... 38
ПРИЛОЖЕНИЕ 41
1) Krizhevsky, A. ImageNet classification with deep convolutional neural networks / A. Krizhevsky, I. Sutskever, G.Hinton [и др.]. — Текст : непосредственный // Advances in Neural Information Processing Systems 25’, Curran Associates, Inc. - 2012. - C. 1097-1105.
2) Deng, J. ImageNet: a Large-Scale Hierarchical Image Database / J. Deng, W. Dong, R. Socher [и др.]. — Текст : непосредственный // IEEE Conference on Computer Vision and Pattern Recognition. - 2009. - C. 248¬255.
3) Не, K. Deep Residual Learning for Image Recognition / K. He, X. Zhang, S. Ren, J. Sun. - Текст : непосредственный // IEEE Conference on Computer Vision and Pattern Recognition. - 2015. - C. 770-778.
4) Dosovitskiy, A. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale / A. Dosovitskiy, L. Beyer, A. Kolesnikov [и др.]. - Текст : электронный // ArXiv. - 2020. - URL: https://arxiv.org/pdf/2010.11929 (дата обращения 12.05.2024).
5) Vaswani, A. Attention is all you need / A. Vaswani, N. Shazeer, N. Parmar [и др.]. - Текст : непосредственный // Advances in Neural Information Processing Systems. - 2017. - C. 5998-6008.
6) Bello, I. Attention Augmented Convolutional Networks / I. Bello, B. Zoph, A. Vaswani, J. Shlens, Q. Le. // - Текст : электронный // ArXiv. - 2019. - URL: https://arxiv.org/abs/1904.09925 (дата обращения: 12.05.2024).
7) Wu, B. Visual Transformers: Token-based Image Representation and Processing for Computer Vision / B. Wu, C. Xu, X. Dai, A. Wan, P. Zhang, Z. Yan, M.Tomizuka, J. Gonzalez, K. Keutzer, P.r Va jda. // - Текст : электронный // ArXiv. - 2020. - URL: https://arxiv.org/abs/2006.03677 (дата обращения: 12.05.2024).
8) Hendrycks, D. Gaussian Error Linear Units (GELUs) / D.Hendrycks, K. Gimpel. - Текст : электронный // ArXiv. - 2016. - URL: https://arxiv.org/abs/1606.08415 (дата обращения 12.05.2024).
9) Sun, C. Revisiting Unreasonable Effectiveness of Data in Deep Learning Era / C. Sun, A. Shrivastava, S. Singh, A. Gupta. // - Текст : электронный // ArXiv. - 2017. - URL: https://arxiv.org/pdf/1707.02968v2 (дата обращения: 12.05.2024).
10) Peruzzo, E. Spatial Entropy as an Inductive Bias for Vision Transformers / E. Peruzzo, E. Sangineto, Y. Liu, M. Nadai, W. Bi, B. Lepri, N. Sebe. // - Текст : электронный // ArXiv. - 2023. - URL: https://arxiv.org/abs/2206.04636 (дата обращения: 12.05.2024).