Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer

Раздел
Программирование
Просмотров
175
Покупок
0
Антиплагиат
Не указан
Размещена
10 Июл 2021 в 00:52
ВУЗ
Не указан
Курс
4 курс
Стоимость
900 ₽
Демо-файлы   
1
docx
ПРИЛОЖЕНИЕ отрывок ПРИЛОЖЕНИЕ отрывок
16.8 Кбайт 16.8 Кбайт
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
docx
Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer
4.6 Мбайт 900 ₽
Описание

Целью магистерской диссертации является ускорение процесса обучения модели BERT, то есть сделать модель вычислительно проще. Для достижения этой цели ставятся следующие задачи:

– изучение BERT,

– реализация модели BERT,

– обучение модели,

– валидация результатов на задаче классификации текстов,

– модификация модели с целью ускорения процесса обучения.

Для удобства введём англоязычные термины, которым трудно по- добрать аналог в русском языке:

– batch – пакет, набор данных, батч,

– residual connections – остаточные соединения,

– positional encoding – позиционное кодирование.

Оглавление

ВВЕДЕНИЕ..................................................................................................... 3

1. Методы вычисления векторных представлений слов с помощью нейронной сети Transformer....................................................................... 6

1.1. Transformer......................................................................................... 6

1.2. Transformer Encoder.......................................................................... 6

1.2.1. Входная последовательности токенов......................................... 7

1.2.2. Таблица векторных представлений............................................. 8

1.2.3. Positional Encoding................................................................. 9

1.2.4. Multi-head Attention............................................................. 10

1.2.5. Residual connections............................................................. 12

1.2.6. Layer normalization.............................................................. 13

1.2.7. Полносвязный слой................................................................... 13

1.2.8. Encoder Layer........................................................................ 14

1.2.9. Encoder Transformer............................................................ 15

1.3. Входной вектор................................................................................ 16

1.3.1. Векторные представления сегментов........................................ 16

1.4. Задачи............................................................................................... 16

1.4.1. Masked Language Model............................................................ 16

1.4.2. Next Sentence Prediction....................................................... 18

1.5. Число обучаемых параметров BERT............................................ 18

1.6. Число операций в BERT................................................................. 19

2. Реализация и эксперимент....................................................................... 21

2.1. Язык программирования и библиотеки................................................ 21

2.2. Набор данных.................................................................................. 21

2.3. Параметры....................................................................................... 21

2.4. Результаты........................................................................................ 22

2.4.1. Pre-training............................................................................ 22

2.4.2. Задача классификации текстов.......................................... 22

2.4.3. Эксперимент по изменение параметров.................................... 22


2.4.4. Эксперимент c изменением числа операций.............................. 25

3. Вычислительно эффективные методы получения векторных представлений слов с помощью Transformer............................................. 29

3.1. Исследование вычислительно эффективных методов полу- чения векторных представлений слов с помощью нейронной

сети Трансформер........................................................................... 29

3.2. Разработка модификации архитектуры нейронной сети Транс- формер.............................................................................................. 31

3.3. Программная реализация модификации нейронной сети Транс- формер 36

3.4. Результаты........................................................................................ 37

3.4.1. Pre-training............................................................................ 37

3.4.2. Pre-training на одной итерации нейронной сети Trans- former с модификацией......................................................................... 40

3.4.3. ELECTRA............................................................................... 44

3.4.4. ELECTRA Pre-training......................................................... 46

3.4.5. ELECTRA Pre-training с модификацией.......................... 48

ЗАКЛЮЧЕНИЕ........................................................................................... 51

СПИСОК ЛИТЕРАТУРЫ.......................................................................... 55

ПРИЛОЖЕНИЯ.......................................................................................... 57

Список литературы

1. Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.

2. Matthew E. Peters. Deep contextualized word representations / Matthew

E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // URL:https://arxiv.org/abs/1802.05365.

3. Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // URL:https://arxiv.org/abs/1810.04805.

4. Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // URL:https://arxiv.org/abs/1706.03762.

5. Jimmy Lei Ba. Layer Normalization / Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton // URL:https://arxiv.org/abs/1607.06450.

6. Ilya Loshchilov. Decoupled Weight Decay Regularization / Ilya Loshchilov, Frank Hutter // URL:https://arxiv.org/abs/1711.05101.

7. Yang You. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes / Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh // URL:https://arxiv.org/abs/1904.00962.

8. Linyuan Gong. Efficient Training of BERT by Progressively Stacking / Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu // URL:https://proceedings.mlr.press/v97/gong19a/gong19a.pdf.

9. Zhenzhong Lan. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations / Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

// URL:https://arxiv.org/abs/1909.11942.

10. Kevin Clark. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators / Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning // URL:https://arxiv.org/abs/2003.10555.

11. Sheng Shen. Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT / Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer // URL:https://arxiv.org/abs/1909.05840.

12. Geoffrey Hinton. Distilling the Knowledge in a Neural Network / Geoffrey Hinton, Oriol Vinyals, Jeff Dean // URL:https://arxiv.org/abs/1503.02531.

13. Victor Sanh. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf // URL:https://arxiv.org/abs/1910.01108.

14. Zak Stone. Now you can train TensorFlow machine learning models faster and at lower cost on Cloud TPU Pods / Zak Stone // URL:https://cloud.google.com/blog/products/ai-machine-learning/now- you-can-train-ml-models-faster-and-lower-cost-cloud-tpu-pods.

15. NVIDIA. NVIDIA Tesla V100 GPU Accelerator / NVIDIA // URL:https://images.nvidia.com/content/technologies/volta/pdf/tesla- volta-v100-datasheet-letter-fnl-web.pdf.

16. NVIDIA. NVIDIA Tesla P40 GPU Accelerator / NVIDIA // URL:http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40- Datasheet-NV-Final-Letter-Web.pdf.

17. Ian J. Goodfellow. Generative Adversarial Networks / Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio // URL:https://arxiv.org/abs/1406.2661.

Вам подходит эта работа?
Похожие работы
Другие работы автора
Web-программирование
Дипломная работа Дипломная
20 Сен в 10:40
17
0 покупок
Web-программирование
Дипломная работа Дипломная
20 Сен в 10:27
21
0 покупок
Web-программирование
Дипломная работа Дипломная
20 Сен в 10:19
15
0 покупок
Web-программирование
Дипломная работа Дипломная
20 Сен в 09:47
18
0 покупок
Web-программирование
Дипломная работа Дипломная
19 Сен в 19:29
20
0 покупок
Web-программирование
Дипломная работа Дипломная
17 Сен в 22:46
21
0 покупок
Web-программирование
Дипломная работа Дипломная
17 Сен в 21:15
14
0 покупок
Web-программирование
Дипломная работа Дипломная
17 Сен в 20:58
24
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 22:41
15
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 21:50
14
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 21:48
10
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 21:08
20
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 23:51
19
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 22:49
13
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 11:21
22
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 00:29
21
0 покупок
Web-программирование
Дипломная работа Дипломная
12 Сен в 00:40
20
0 покупок
Web-программирование
Дипломная работа Дипломная
11 Сен в 23:24
25
0 покупок
Web-программирование
Дипломная работа Дипломная
11 Сен в 10:31
32
0 покупок
Темы журнала
Показать ещё
Прямой эфир