Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer

Раздел
Программирование
Просмотров
178
Покупок
0
Антиплагиат
Не указан
Размещена
10 Июл 2021 в 00:52
ВУЗ
Не указан
Курс
4 курс
Стоимость
900 ₽
Демо-файлы   
1
docx
ПРИЛОЖЕНИЕ отрывок ПРИЛОЖЕНИЕ отрывок
16.8 Кбайт 16.8 Кбайт
Файлы работы   
1
Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.
docx
Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer
4.6 Мбайт 900 ₽
Описание

Целью магистерской диссертации является ускорение процесса обучения модели BERT, то есть сделать модель вычислительно проще. Для достижения этой цели ставятся следующие задачи:

–   изучение BERT,

–   реализация модели BERT,

–   обучение модели,

–   валидация результатов на задаче классификации текстов,

–   модификация модели с целью ускорения процесса обучения.

Для удобства введём англоязычные термины, которым трудно по- добрать аналог в русском языке:

–   batch – пакет, набор данных, батч,

–   residual connections – остаточные соединения,

–   positional encoding – позиционное кодирование.

Оглавление

ВВЕДЕНИЕ..................................................................................................... 3

1.         Методы вычисления векторных представлений слов с помощью нейронной сети Transformer....................................................................... 6

1.1. Transformer......................................................................................... 6

1.2. Transformer Encoder.......................................................................... 6

1.2.1.       Входная последовательности токенов......................................... 7

1.2.2.       Таблица векторных представлений............................................. 8

1.2.3.       Positional Encoding................................................................. 9

1.2.4.       Multi-head Attention............................................................. 10

1.2.5.       Residual connections............................................................. 12

1.2.6.       Layer normalization.............................................................. 13

1.2.7.       Полносвязный слой................................................................... 13

1.2.8.       Encoder Layer........................................................................ 14

1.2.9.       Encoder Transformer............................................................ 15

1.3. Входной вектор................................................................................ 16

1.3.1.       Векторные представления сегментов........................................ 16

1.4. Задачи............................................................................................... 16

1.4.1.       Masked Language Model............................................................ 16

1.4.2.       Next Sentence Prediction....................................................... 18

1.5. Число обучаемых параметров BERT............................................ 18

1.6. Число операций в BERT................................................................. 19

2.         Реализация и эксперимент....................................................................... 21

2.1. Язык программирования и библиотеки................................................ 21

2.2. Набор данных.................................................................................. 21

2.3. Параметры....................................................................................... 21

2.4. Результаты........................................................................................ 22

2.4.1.       Pre-training............................................................................ 22

2.4.2.       Задача классификации текстов.......................................... 22

2.4.3.       Эксперимент по изменение параметров.................................... 22


2.4.4.       Эксперимент c изменением числа операций.............................. 25

3.         Вычислительно эффективные методы получения векторных представлений слов с помощью Transformer............................................. 29

3.1. Исследование вычислительно эффективных методов полу- чения векторных представлений слов с помощью нейронной

сети Трансформер........................................................................... 29

3.2. Разработка модификации архитектуры нейронной сети Транс- формер.............................................................................................. 31

3.3. Программная реализация модификации нейронной сети Транс- формер    36

3.4. Результаты........................................................................................ 37

3.4.1.       Pre-training............................................................................ 37

3.4.2.       Pre-training на одной итерации нейронной сети Trans- former с модификацией......................................................................... 40

3.4.3.       ELECTRA............................................................................... 44

3.4.4.       ELECTRA Pre-training......................................................... 46

3.4.5.       ELECTRA Pre-training с модификацией.......................... 48

ЗАКЛЮЧЕНИЕ........................................................................................... 51

СПИСОК ЛИТЕРАТУРЫ.......................................................................... 55

ПРИЛОЖЕНИЯ.......................................................................................... 57

Список литературы

1.  Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.

2.  Matthew E. Peters. Deep contextualized word representations / Matthew

E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // URL:https://arxiv.org/abs/1802.05365.

3.  Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // URL:https://arxiv.org/abs/1810.04805.

4.  Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // URL:https://arxiv.org/abs/1706.03762.

5.  Jimmy Lei Ba. Layer Normalization / Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton // URL:https://arxiv.org/abs/1607.06450.

6.  Ilya Loshchilov. Decoupled Weight Decay Regularization / Ilya Loshchilov, Frank Hutter // URL:https://arxiv.org/abs/1711.05101.

7.  Yang You. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes / Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh // URL:https://arxiv.org/abs/1904.00962.

8.  Linyuan Gong. Efficient Training of BERT by Progressively Stacking / Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu // URL:https://proceedings.mlr.press/v97/gong19a/gong19a.pdf.

9.  Zhenzhong Lan. ALBERT: A Lite BERT for Self-supervised Learning  of Language Representations / Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

// URL:https://arxiv.org/abs/1909.11942.

10.  Kevin Clark. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators / Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning // URL:https://arxiv.org/abs/2003.10555.

11.  Sheng Shen. Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT / Sheng Shen, Zhen Dong,  Jiayu  Ye,  Linjian  Ma,  Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer // URL:https://arxiv.org/abs/1909.05840.

12.  Geoffrey Hinton. Distilling the Knowledge in a Neural Network / Geoffrey Hinton, Oriol Vinyals, Jeff Dean // URL:https://arxiv.org/abs/1503.02531.

13.  Victor Sanh. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf // URL:https://arxiv.org/abs/1910.01108.

14.  Zak Stone. Now you can train TensorFlow machine learning models faster           and at  lower cost  on  Cloud TPU  Pods / Zak Stone  // URL:https://cloud.google.com/blog/products/ai-machine-learning/now- you-can-train-ml-models-faster-and-lower-cost-cloud-tpu-pods.

15.  NVIDIA.  NVIDIA  Tesla  V100  GPU  Accelerator /  NVIDIA  // URL:https://images.nvidia.com/content/technologies/volta/pdf/tesla- volta-v100-datasheet-letter-fnl-web.pdf.

16.  NVIDIA.  NVIDIA  Tesla  P40   GPU   Accelerator /  NVIDIA  // URL:http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40- Datasheet-NV-Final-Letter-Web.pdf.

17.  Ian J. Goodfellow. Generative Adversarial Networks / Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio // URL:https://arxiv.org/abs/1406.2661.

Вам подходит эта работа?
Похожие работы
Основы программирования
Лабораторная работа Лабораторная
4 Ноя в 20:48
7 +7
0 покупок
Основы программирования
Лабораторная работа Лабораторная
4 Ноя в 18:17
11 +11
0 покупок
Основы программирования
Лабораторная работа Лабораторная
4 Ноя в 13:48
9 +9
0 покупок
Основы программирования
Лабораторная работа Лабораторная
4 Ноя в 13:44
10 +10
0 покупок
Основы программирования
Контрольная работа Контрольная
3 Ноя в 19:32
9 +9
0 покупок
Другие работы автора
Web-программирование
Дипломная работа Дипломная
20 Сен в 10:40
42
0 покупок
Web-программирование
Дипломная работа Дипломная
20 Сен в 10:27
44 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
20 Сен в 10:19
29 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
20 Сен в 09:47
33 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
19 Сен в 19:29
37 +2
0 покупок
Web-программирование
Дипломная работа Дипломная
17 Сен в 22:46
39
0 покупок
Web-программирование
Дипломная работа Дипломная
17 Сен в 21:15
34 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
17 Сен в 20:58
36 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 22:41
31 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 21:50
33
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 21:48
22 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
14 Сен в 21:08
31 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 23:51
30
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 22:49
24 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 11:21
41 +3
0 покупок
Web-программирование
Дипломная работа Дипломная
13 Сен в 00:29
43 +2
0 покупок
Web-программирование
Дипломная работа Дипломная
12 Сен в 00:40
35 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
11 Сен в 23:24
36 +1
0 покупок
Web-программирование
Дипломная работа Дипломная
11 Сен в 10:31
47 +1
0 покупок
Темы журнала
Показать ещё
Прямой эфир