В этой области проводится множество исследований и каждый год опубликовываются десятки статей на лучших научных конференциях мира, связанных с компьютерным зрением. И успехи в ней достаточно велики, так как с каждым годом точность на многих академических набора данных становится всё выше и выше. Частично это связанно с тем, что данные алгоритмы приносят большую пользу лидерам в IT-области, ведь через метрическое обучение работают алгоритмы распознавания лиц, транспортных средств, поиска наиболее похожих интернет-товаров
[4] и так далее. Также популярность этой области связанна с достаточно большим количеством не решенных проблем, которые проявляются в виде низкой точности на некоторых наборах данных
Таким образом, целью данной выпускной квалификационной работы является разработка алгоритмов вычисления векторного представления изображения с помощью глубокого обучения и для достижения этой цели были поставлены следующие задачи:
– изучение литературы, связанной с машинным обучением, ком пьютерным зрением, глубоким обучением и методами вычисления векторного представления изображений;
– разработка методов вычисления векторного представления изображений;
– программная реализация алгоритмов на языке программирования Python с использованием библиотеки PyTorch;
– обучение реализованных алгоритмов и валидация гиперпараметров на наборах данных In-Shop Clothes, Stanford Online Products;
– анализ полученных результатов.
ВВЕДЕНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1 Описание предметной области . . . . . . . . . . . . . . . . . . . . 6
1.1 Целевые функции для метрического обучения . . . . . . . 6
1.2 Формирование триплетов для метрического обучения . . . 10
1.3 Подход к обучению через парадигму ”разделяй и властвуй” 15
1.3.1 Архитектура свёрточной нейронной сети и принцип
её работы................................................................................. 16
1.3.2 Кластеризация набора данных на K кластеров................... 17
1.3.3 Разделение векторного представления на ”учеников” . 18
1.3.4 Сохранение связи между кластерами и ”учениками” . 18 1.3.5 Обучение ”учеников”.............................................................. 18
1.3.6 Обучение после объединения ”учеников”............................. 19
1.4 Метрическое обучение через разбиение на кластеры.................... 19
1.4.1 Переход к глобальным дескрипторам и отказ от ре- шения транспортной задачи.............................................................. 20
1.4.2 Агрегация через механизм внимания.................................... 21
1.5 Обзор существующих методов для решения задачи метри- ческого обучения ............................................................................................. 24
2 Описание внесенных изменений в ”модифицированный D&C” . 26
2.1 Алгоритм быстрой валидации........................................................ 26
2.1.1 Разделение обучающей выборки на две части случай-
ным образом........................................................................... 27
2.1.2 Разделение обучающей выборки на две части с чере-
дованием.................................................................................. 28
2.2 Поддержание актуальности центроидов кластеров....................... 30
2.3 Превращение центроидов в обучаемые параметры после завершения обучения ............................................................................................. 31
2.4 Нормализация векторов в процессе обучения................................ 32
2.4.1 Нормализация центроидов перед передачей в меха-
низм внимания........................................................................ 32
2.4.2 Замена алгоритма кластеризации.......................................... 33
2.5 Замена механизма внимания на усреднение векторов . . . 34
2.6 Замена механизма внимания на полносвязный слой..................... 34
3 Результаты экспериментов....................................................................... 36
3.1 Наборы данных............................................................................... 36
3.2 Метрика для оценки результатов................................................... 37
3.3 Реализация........................................................................................ 37
3.4 Применение алгоритма быстрой валидации................................ 38
3.5 Результаты работы алгоритма поддержания актуальности центроидов .......................................................................................... 40
3.6 Результаты работы алгоритма превращение центроидов в обучаемые параметры после завершения обучения ....................... 41
3.7 Результаты нормализации векторов в процессе обучения . 43
3.7.1 Нормализация центроидов перед передачей в меха-
низм внимания........................................................................ 43
3.7.2 Замена алгоритма кластеризации.......................................... 43
3.8 Результаты замены механизма внимания на усреднение век- торов 44
3.9 Результаты замены механизма внимания на полносвязный
слой...................................................................................................... 45
3.10 Результаты работы алгоритмов на различных наборах дан-
ных....................................................................................................... 46
3.10.1 Результаты работы на наборе данных In-Shop Clothes 47
3.10.2 Результаты экспериментов на наборе данных Stanford
Online Products........................................................................ 49
3.10.3 Результаты экспериментов на наборе данных CUB200-
2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.10.4 Результаты экспериментов на наборе данных CARS196 53 ЗАКЛЮЧЕНИЕ............................................................................................... 55
СПИСОК ЛИТЕРАТУРЫ......................................................................... 67
ПРИЛОЖЕНИЕ........................................................................................... 72
1. Hermans, A. In Defense of the Triplet Loss for Person Re-Identification
/ A. Hermans, L. Beyer, B. Leibe // arXiv preprint arXiv:1703.07737 : [сайт] – 2017. - URL: https://arxiv.org/abs/1703.07737 (дата обращения: 05.05.2021)
2. Circle Loss: A Unified Perspective of Pair Similarity Optimization /
Y. Sun, C. Cheng, Y. Zhang, C. Zhang, L. Zheng, Z. Wang, Y. Wei // arXiv preprint arXiv:2002.10857 : [сайт] – 2020. - URL: https://arxiv.org/abs/2002.10857 (дата обращения: 28.05.2021)
3. Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval
/ A.Brown, W. Xie, V. Kalogeiton, A. Zisserman // arXiv preprint arXiv:2007.12163 : [сайт] – 2020. - URL: https://arxiv.org/abs/2007.12163 (дата обращения: 28.05.2021)
4. ProxyNCA++: Revisiting and Revitalizing Proxy Neighborhood Component Analysis / E. W. Teh, T. DeVries, G. Taylor // arXiv preprint arXiv:2004.01113 : [сайт] – 2020. - URL: https://arxiv.org/abs/2004.01113 (дата обращения: 05.05.2021)
5. The iNaturalist Species Classification and Detection Dataset / G. Horn, O. Aodha, Y. Song, Y. Cui, C. Sun, A. Shepard, H. Adam, P. Perona,
S. Belongie // arXiv preprint arXiv:1707.06642 : [сайт] – 2017. - URL: https://arxiv.org/abs/1707.06642 (дата обращения: 28.05.2021)
6. Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models / B. Plummer, L. Wang, C. Cervantes, J. Caicedo, J. Hockenmaier, S. Lazebnik // arXiv preprint arXiv:1505.04870 : [сайт] – 2015. - URL: https://arxiv.org/abs/1505.04870 (дата обращения: 28.05.2021)
7. DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations / Z. Liu, P. Luo, S. Qiu, X. Wang // IEEE Transactions on Pattern Analysis and Machine Intelligence : [сайт] – 2016. - URL: https://ieeexplore.ieee.org/document/7780493 (дата обращения: 06.05.2021)
8. Deep Metric Learning via Lifted Structured Feature Embedding / H. Song, Y. Xiang, S. Jegelka, S. Savarese // arXiv preprint arXiv:1511.06452
: [сайт] – 2015. - URL: https://arxiv.org/abs/1511.06452 (дата обращения: 08.05.2021)
9. 3D Object Representations for Fine-Grained Categorization /
J. Krause, M. Stark, J. Deng, L. Fei-Fei // IEEE Transactions on Pattern Analysis and Machine Intelligence : [сайт] – 2013. - URL: https://ieeexplore.ieee.org/document/6755945 (дата обращения: 08.05.2021)
10. Caltech-UCSD Birds 200 / P. Welinder, Steve Branson, T. Mita, C. Wah, F. Schroff, S. Belongie, P. Perona // ResearchGate : [сайт] – 2010. - URL: https://www.researchgate.net/publication/46572499 (дата обращения: 08.05.2021)
11. Musgrave, K. A Metric Learning Reality Check / K. Musgrave,
S. Belongie, S. Lim// arXiv preprint arXiv:2003.08505 : [сайт] – 2020. - URL: https://arxiv.org/abs/2003.08505 (дата обращения: 05.05.2021)
12. Hadsell, R. Dimensionality Reduction by Learning an Invariant Mapping / R. Hadsell, S. Chopra, Y. Lecun // ResearchGate : [сайт] – 2006.
- URL: https://www.researchgate.net/publication/424627 (дата обращения: 05.05.2021)
13. Weinberger, K. Distance Metric Learning for Large Margin Nearest Neighbor Classification / K. Weinberger, J. Blitzer, L. Saul // ResearchGate
: [сайт] – 2006. - URL: https://www.researchgate.net/publication/210341989 (дата обращения: 28.05.2021)
14. Schroff, F. FaceNet: A Unified Embedding for Face Recognition and Clustering / F. Schroff, D. Kalenichenko, J. Philbin // arXiv preprint
arXiv:1503.03832 : [сайт] – 2015. - URL: https://arxiv.org/abs/1503.03832 (дата обращения: 05.05.2021)
15. Sampling Matters in Deep Embedding Learning / C.-Y. Wu,
R. Manmatha, A. Smola, P. Krähenbühl // arXiv preprint arXiv:1706.07567
: [сайт] – 2017. - URL: https://arxiv.org/abs/1706.07567 (дата обращения: 05.05.2021)
16. Sohn, K. Improved Deep Metric Learning with Multi-class N-pair Loss Objective / K. Sohn // NIPS : [сайт] – 2016. - URL: https://papers.nips.cc/paper/2016/hash/6b180037991d8b1232f8a8ca9- Abstract.html (дата обращения: 05.05.2021)
17. Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning / X. Wang, X. Han, W. Huang, D. Dong, M. Scott // arXiv preprint arXiv:1904.06627 : [сайт] – 2019. - URL: https://arxiv.org/abs/1904.06627 (дата обращения: 05.05.2021)
18. No Fuss Distance Metric Learning using Proxies / Y. Movshovitz- Attias, A. Toshev, T. Leung, S. Ioffe, S. Singh // arXiv preprint arXiv:1703.07464 : [сайт] – 2017. - URL: https://arxiv.org/abs/1703.07464 (дата обращения: 05.05.2021)
19. Divide and Conquer the Embedding Space for Metric Learning /
A. Sanakoyeu, V. Tschernezki, U. Büchler, B. Ommer // arXiv preprint arXiv:1906.05990 : [сайт] – 2019. - URL: https://arxiv.org/abs/1906.05990 (дата обращения: 05.05.2021)
20. Deep Residual Learning for Image Recognition / K. He, X. Zhang,
S. Ren, J. Sun // arXiv preprint arXiv:1512.03385 : [сайт] – 2015. - URL: https://arxiv.org/abs/1512.03385 (дата обращения: 05.05.2021)
21. Krizhevsky, A. ImageNet Classification with Deep Convolutional Neural Networks / A. Krizhevsky, I. Sutskever, G. Hinton // ResearchGate : [сайт] – 2012. - URL: https://www.researchgate.net/publication/267960550 (дата обращения: 05.05.2021)
22. Lloyd, S. Least squares quantization in PCM / S. Lloyd // IEEE Transactions on Pattern Analysis and Machine Intelligence : [сайт] – 1982. - URL: https://ieeexplore.ieee.org/document/1056489 (дата обращения: 05.05.2021)
23. Munkres, J. Algorithms for the assighment and transportation problems / J. Munkres // JSTOR : [сайт] – 1957. - URL: https://www.jstor.org/stable/2098689 (дата обращения: 05.05.2021)
24. Deep Relative Distance Learning: Tell the Difference between Similar Vehicles / H. Liu, Y. Tian, Y. Yang, L. Pang, T. Huang // ResearchGate : [сайт] – 2016. - URL: https://www.researchgate.net/publication/311611186 (дата обращения: 06.05.2021)
25. Attention Is All You Need / A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, I. Polosukhin // arXiv preprint arXiv:1706.03762 : [сайт] – 2017. - URL: https://arxiv.org/abs/1706.03762 (дата обращения: 05.05.2021)
26. Radenović, F. Fine-tuning CNN Image Retrieval with No Human Annotation / F. Radenović, G. Tolias, O. Chum // arXiv preprint arXiv:1711.02512 : [сайт] – 2017. - URL: https://arxiv.org/abs/1711.02512 (дата обращения: 06.05.2021)
27. Cross-Batch Memory for Embedding Learning / X. Wang, H. Zhang,
W. Huang, M. Scott // arXiv preprint arXiv:1912.06798 : [сайт] – 2019. - URL: https://arxiv.org/abs/1912.06798 (дата обращения: 05.05.2021)
28. Combination of Multiple Global Descriptors for Image Retrieval / H. Jun, B. Ko, Y. Kim, I. Kim, J. Kim // arXiv preprint arXiv:1903.10663 : [сайт] – 2019. - URL: https://arxiv.org/abs/1903.10663 (дата обращения: 05.05.2021)
29. Babenko, A. Aggregating Deep Convolutional Features for Image Retrieval / A. Babenko, V. Lempitsky // arXiv preprint arXiv:1510.07493
: [сайт] – 2015. - URL: https://arxiv.org/abs/1512.03385 (дата обращения: 07.05.2021)
30. Tolias, G. Particular object retrieval with integral max-pooling of CNN activations / G. Tolias, R. Sicre, H. Jégou // arXiv preprint arXiv:1510.07493 : [сайт] – 2015. - URL: https://arxiv.org/abs/1511.05879 (дата обращения: 07.05.2021)
31. Грешилов, А. А. Математические методы построения прогнозов : учебник / А. А. Грешилов, В. А. Стакун, А. А. Стакун. – Москва : Радио и связь, 1997. - 112 c. - ISBN 5-256-01352-1.
32. Zhong, S. Efficient online sphercal K-means clustering / S. Zhong // ResearchGate : [сайт] – 2005. - URL: https://www.researchgate.net/publication/4202779 (дата обращения: 18.05.2021)
33. Jégou, H. Product Quantization for Nearest Neighbor Search / H. Jégou, M. Douze, C. Schmid // ResearchGate : [сайт] – 2011. - URL: https://www.researchgate.net/publication/47815472 (дата обращения: 10.05.2021)
34. Glorot, X. Understanding the difficulty of training deep feedforward neural networks / X. Glorot, Y. Bengio // ResearchGate : [сайт] – 2010. - URL: https://www.researchgate.net/publication/215616968 (дата обраще- ния: 10.05.2021)
35. Kingma, D. Adam: A Method for Stochastic Optimization / D. Kingma,
J. Ba. // arXiv preprint arXiv:1412.6980 : [сайт] – 2014. - URL: https://arxiv.org/abs/1412.6980 (дата обращения: 10.05.2021)