Целью магистерской диссертации является ускорение процесса обучения модели BERT, то есть сделать модель вычислительно проще. Для достижения этой цели ставятся следующие задачи:
– изучение BERT,
– реализация модели BERT,
– обучение модели,
– валидация результатов на задаче классификации текстов,
– модификация модели с целью ускорения процесса обучения.
Для удобства введём англоязычные термины, которым трудно по- добрать аналог в русском языке:
– batch – пакет, набор данных, батч,
– residual connections – остаточные соединения,
– positional encoding – позиционное кодирование.
ВВЕДЕНИЕ..................................................................................................... 3
1. Методы вычисления векторных представлений слов с помощью нейронной сети Transformer....................................................................... 6
1.1. Transformer......................................................................................... 6
1.2. Transformer Encoder.......................................................................... 6
1.2.1. Входная последовательности токенов......................................... 7
1.2.2. Таблица векторных представлений............................................. 8
1.2.3. Positional Encoding................................................................. 9
1.2.4. Multi-head Attention............................................................. 10
1.2.5. Residual connections............................................................. 12
1.2.6. Layer normalization.............................................................. 13
1.2.7. Полносвязный слой................................................................... 13
1.2.8. Encoder Layer........................................................................ 14
1.2.9. Encoder Transformer............................................................ 15
1.3. Входной вектор................................................................................ 16
1.3.1. Векторные представления сегментов........................................ 16
1.4. Задачи............................................................................................... 16
1.4.1. Masked Language Model............................................................ 16
1.4.2. Next Sentence Prediction....................................................... 18
1.5. Число обучаемых параметров BERT............................................ 18
1.6. Число операций в BERT................................................................. 19
2. Реализация и эксперимент....................................................................... 21
2.1. Язык программирования и библиотеки................................................ 21
2.2. Набор данных.................................................................................. 21
2.3. Параметры....................................................................................... 21
2.4. Результаты........................................................................................ 22
2.4.1. Pre-training............................................................................ 22
2.4.2. Задача классификации текстов.......................................... 22
2.4.3. Эксперимент по изменение параметров.................................... 22
2.4.4. Эксперимент c изменением числа операций.............................. 25
3. Вычислительно эффективные методы получения векторных представлений слов с помощью Transformer............................................. 29
3.1. Исследование вычислительно эффективных методов полу- чения векторных представлений слов с помощью нейронной
сети Трансформер........................................................................... 29
3.2. Разработка модификации архитектуры нейронной сети Транс- формер.............................................................................................. 31
3.3. Программная реализация модификации нейронной сети Транс- формер 36
3.4. Результаты........................................................................................ 37
3.4.1. Pre-training............................................................................ 37
3.4.2. Pre-training на одной итерации нейронной сети Trans- former с модификацией......................................................................... 40
3.4.3. ELECTRA............................................................................... 44
3.4.4. ELECTRA Pre-training......................................................... 46
3.4.5. ELECTRA Pre-training с модификацией.......................... 48
ЗАКЛЮЧЕНИЕ........................................................................................... 51
СПИСОК ЛИТЕРАТУРЫ.......................................................................... 55
ПРИЛОЖЕНИЯ.......................................................................................... 57
1. Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.
2. Matthew E. Peters. Deep contextualized word representations / Matthew
E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // URL:https://arxiv.org/abs/1802.05365.
3. Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // URL:https://arxiv.org/abs/1810.04805.
4. Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // URL:https://arxiv.org/abs/1706.03762.
5. Jimmy Lei Ba. Layer Normalization / Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton // URL:https://arxiv.org/abs/1607.06450.
6. Ilya Loshchilov. Decoupled Weight Decay Regularization / Ilya Loshchilov, Frank Hutter // URL:https://arxiv.org/abs/1711.05101.
7. Yang You. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes / Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh // URL:https://arxiv.org/abs/1904.00962.
8. Linyuan Gong. Efficient Training of BERT by Progressively Stacking / Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu // URL:https://proceedings.mlr.press/v97/gong19a/gong19a.pdf.
9. Zhenzhong Lan. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations / Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
// URL:https://arxiv.org/abs/1909.11942.
10. Kevin Clark. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators / Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning // URL:https://arxiv.org/abs/2003.10555.
11. Sheng Shen. Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT / Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer // URL:https://arxiv.org/abs/1909.05840.
12. Geoffrey Hinton. Distilling the Knowledge in a Neural Network / Geoffrey Hinton, Oriol Vinyals, Jeff Dean // URL:https://arxiv.org/abs/1503.02531.
13. Victor Sanh. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf // URL:https://arxiv.org/abs/1910.01108.
14. Zak Stone. Now you can train TensorFlow machine learning models faster and at lower cost on Cloud TPU Pods / Zak Stone // URL:https://cloud.google.com/blog/products/ai-machine-learning/now- you-can-train-ml-models-faster-and-lower-cost-cloud-tpu-pods.
15. NVIDIA. NVIDIA Tesla V100 GPU Accelerator / NVIDIA // URL:https://images.nvidia.com/content/technologies/volta/pdf/tesla- volta-v100-datasheet-letter-fnl-web.pdf.
16. NVIDIA. NVIDIA Tesla P40 GPU Accelerator / NVIDIA // URL:http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40- Datasheet-NV-Final-Letter-Web.pdf.
17. Ian J. Goodfellow. Generative Adversarial Networks / Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio // URL:https://arxiv.org/abs/1406.2661.