Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer

Главная

Магазин

Дипломная работа

Основы программирования

Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer

ksfei121

Был(а) на сайте 2 часа назад

Раздел

Программирование

Предмет

Основы программирования

Тип

Дипломная работа

Просмотров

181

Покупок

Антиплагиат

Не указан

Размещена

10 Июл 2021 в 00:52

ВУЗ

Не указан

Курс

4 курс

Стоимость

900 ₽

Демо-файлы

ПРИЛОЖЕНИЕ отрывок ПРИЛОЖЕНИЕ отрывок

16.8 Кбайт 16.8 Кбайт

Файлы работы

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer

4.6 Мбайт 900 ₽

Описание

Целью магистерской диссертации является ускорение процесса обучения модели BERT, то есть сделать модель вычислительно проще. Для достижения этой цели ставятся следующие задачи:

– изучение BERT,

– реализация модели BERT,

– обучение модели,

– валидация результатов на задаче классификации текстов,

– модификация модели с целью ускорения процесса обучения.

Для удобства введём англоязычные термины, которым трудно по- добрать аналог в русском языке:

– batch – пакет, набор данных, батч,

– residual connections – остаточные соединения,

– positional encoding – позиционное кодирование.

Оглавление

ВВЕДЕНИЕ..................................................................................................... 3

1. Методы вычисления векторных представлений слов с помощью нейронной сети Transformer....................................................................... 6

1.1. Transformer......................................................................................... 6

1.2. Transformer Encoder.......................................................................... 6

1.2.1. Входная последовательности токенов......................................... 7

1.2.2. Таблица векторных представлений............................................. 8

1.2.3. Positional Encoding................................................................. 9

1.2.4. Multi-head Attention............................................................. 10

1.2.5. Residual connections............................................................. 12

1.2.6. Layer normalization.............................................................. 13

1.2.7. Полносвязный слой................................................................... 13

1.2.8. Encoder Layer........................................................................ 14

1.2.9. Encoder Transformer............................................................ 15

1.3. Входной вектор................................................................................ 16

1.3.1. Векторные представления сегментов........................................ 16

1.4. Задачи............................................................................................... 16

1.4.1. Masked Language Model............................................................ 16

1.4.2. Next Sentence Prediction....................................................... 18

1.5. Число обучаемых параметров BERT............................................ 18

1.6. Число операций в BERT................................................................. 19

2. Реализация и эксперимент....................................................................... 21

2.1. Язык программирования и библиотеки................................................ 21

2.2. Набор данных.................................................................................. 21

2.3. Параметры....................................................................................... 21

2.4. Результаты........................................................................................ 22

2.4.1. Pre-training............................................................................ 22

2.4.2. Задача классификации текстов.......................................... 22

2.4.3. Эксперимент по изменение параметров.................................... 22

2.4.4. Эксперимент c изменением числа операций.............................. 25

3. Вычислительно эффективные методы получения векторных представлений слов с помощью Transformer............................................. 29

3.1. Исследование вычислительно эффективных методов полу- чения векторных представлений слов с помощью нейронной

сети Трансформер........................................................................... 29

3.2. Разработка модификации архитектуры нейронной сети Транс- формер.............................................................................................. 31

3.3. Программная реализация модификации нейронной сети Транс- формер 36

3.4. Результаты........................................................................................ 37

3.4.1. Pre-training............................................................................ 37

3.4.2. Pre-training на одной итерации нейронной сети Trans- former с модификацией......................................................................... 40

3.4.3. ELECTRA............................................................................... 44

3.4.4. ELECTRA Pre-training......................................................... 46

3.4.5. ELECTRA Pre-training с модификацией.......................... 48

ЗАКЛЮЧЕНИЕ........................................................................................... 51

СПИСОК ЛИТЕРАТУРЫ.......................................................................... 55

ПРИЛОЖЕНИЯ.......................................................................................... 57

Список литературы

1. Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.

2. Matthew E. Peters. Deep contextualized word representations / Matthew

E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // URL:https://arxiv.org/abs/1802.05365.

3. Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // URL:https://arxiv.org/abs/1810.04805.

4. Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // URL:https://arxiv.org/abs/1706.03762.

5. Jimmy Lei Ba. Layer Normalization / Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton // URL:https://arxiv.org/abs/1607.06450.

6. Ilya Loshchilov. Decoupled Weight Decay Regularization / Ilya Loshchilov, Frank Hutter // URL:https://arxiv.org/abs/1711.05101.

7. Yang You. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes / Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh // URL:https://arxiv.org/abs/1904.00962.

8. Linyuan Gong. Efficient Training of BERT by Progressively Stacking / Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu // URL:https://proceedings.mlr.press/v97/gong19a/gong19a.pdf.

9. Zhenzhong Lan. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations / Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

// URL:https://arxiv.org/abs/1909.11942.

10. Kevin Clark. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators / Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning // URL:https://arxiv.org/abs/2003.10555.

11. Sheng Shen. Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT / Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer // URL:https://arxiv.org/abs/1909.05840.

12. Geoffrey Hinton. Distilling the Knowledge in a Neural Network / Geoffrey Hinton, Oriol Vinyals, Jeff Dean // URL:https://arxiv.org/abs/1503.02531.

13. Victor Sanh. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf // URL:https://arxiv.org/abs/1910.01108.

14. Zak Stone. Now you can train TensorFlow machine learning models faster and at lower cost on Cloud TPU Pods / Zak Stone // URL:https://cloud.google.com/blog/products/ai-machine-learning/now- you-can-train-ml-models-faster-and-lower-cost-cloud-tpu-pods.

15. NVIDIA. NVIDIA Tesla V100 GPU Accelerator / NVIDIA // URL:https://images.nvidia.com/content/technologies/volta/pdf/tesla- volta-v100-datasheet-letter-fnl-web.pdf.

16. NVIDIA. NVIDIA Tesla P40 GPU Accelerator / NVIDIA // URL:http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40- Datasheet-NV-Final-Letter-Web.pdf.

17. Ian J. Goodfellow. Generative Adversarial Networks / Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio // URL:https://arxiv.org/abs/1406.2661.

Вам подходит эта работа?

Похожие работы

Основы программирования

Университет «Синергия» Программирование на Golang (Темы 1-9 Итоговый тест)

248 ₽

Synergy2098

Тест Тест

22 Дек в 07:02

13 +13

0 покупок

Основы программирования

[Росдистант] Управление проектами разработки программного обеспечения (контрольная работа, практические задания)

1 000 ₽

enikonov

Контрольная работа Контрольная

20 Дек в 13:35

70 +5

1 покупка

Основы программирования

Автоматизированная система управления умный дом

10 000 ₽

olegoruk

Дипломная работа Дипломная

18 Дек в 05:05

48 +1

0 покупок

Основы программирования

Технология программирования Синергия Ответы на тесты 1-3, итоговый тест, компетентностный

400 ₽

EasyLearn

Тест Тест

9 Дек в 22:43

1 покупка

Основы программирования

Специализированное программное обеспечение на автомобильном транспорте РОСДИСТАНТ || ЛАБОРАТОРАЯ РАБОТА 1-4

1 000 ₽

Lacrimossa

Лабораторная работа Лабораторная

7 Дек в 17:09

0 покупок

Другие работы автора

Web-программирование

Веб-приложение для итальянского винного дома «Poggio Amorelli» с помощью SaaS-приложения Webflow

1 000 ₽

ksfei121

Дипломная работа Дипломная

20 Сен в 10:40

0 покупок

Web-программирование

Разработка web-приложения для изучения английского языка на платформе ASP.NET Core

1 000 ₽

ksfei121

Дипломная работа Дипломная

20 Сен в 10:27

0 покупок

Web-программирование

Приложение для распознавания и интерпретации жестовых коммуникаций и их перевод в текстовую форму

1 000 ₽

ksfei121

Дипломная работа Дипломная

20 Сен в 10:19

0 покупок

Web-программирование

Разработка веб-сайта «Цифровой гид по достопримечательностям Казани»

1 000 ₽

ksfei121

Дипломная работа Дипломная

20 Сен в 09:47

0 покупок

Web-программирование

Улучшение качества изображения на языке Python

1 000 ₽

ksfei121

Дипломная работа Дипломная

19 Сен в 19:29

0 покупок

Web-программирование

Разработка веб-приложения Quiz с помощью ASP.NET Core MVC

1 000 ₽

ksfei121

Дипломная работа Дипломная

17 Сен в 22:46

0 покупок

Web-программирование

Разработка и реализация сайта новостей в сфере информационных технологий

1 000 ₽

ksfei121

Дипломная работа Дипломная

17 Сен в 21:15

0 покупок

Web-программирование

Разработка системы для анализа и оптимизации торговых стратегий на фондовом рынке

1 000 ₽

ksfei121

Дипломная работа Дипломная

17 Сен в 20:58

0 покупок

Web-программирование

Исследование методов атак на алгоритм RSA

1 000 ₽

ksfei121

Дипломная работа Дипломная

14 Сен в 22:41

57 +1

0 покупок

Web-программирование

Методы защиты от атак уклонением на алгоритмы машинного обучения

1 000 ₽

ksfei121

Дипломная работа Дипломная

14 Сен в 21:50

0 покупок

Web-программирование

Разработка веб-приложения менеджера проектов

2 000 ₽

ksfei121

Дипломная работа Дипломная

14 Сен в 21:48

0 покупок

Web-программирование

Метод регуляризации нейронной сети Vision Transformer

1 000 ₽

ksfei121

Дипломная работа Дипломная

14 Сен в 21:08

0 покупок

Web-программирование

Разработка приложения для расчета гидродинамики газопроводов

1 000 ₽

ksfei121

Дипломная работа Дипломная

13 Сен в 23:51

0 покупок

Web-программирование

Разработка аудиостока для продажи звуковых файлов

1 000 ₽

ksfei121

Дипломная работа Дипломная

13 Сен в 22:49

0 покупок

Web-программирование

Разработка мобильного приложения "диктофон" для OS Android

1 000 ₽

ksfei121

Дипломная работа Дипломная

13 Сен в 11:21

0 покупок

Web-программирование

Приложение аутентификации на основе распознавания голоса в дошкольных учреждениях

1 000 ₽

ksfei121

Дипломная работа Дипломная

13 Сен в 00:29

0 покупок

Web-программирование

Мобильное приложение с элементами дополненной реальности для сказки "Су анасы"

1 000 ₽

ksfei121

Дипломная работа Дипломная

12 Сен в 00:40

0 покупок

Web-программирование

Разработка мобильного приложения для распознавания текста с помощью сверточно-рекуррентной нейронной сети

1 000 ₽

ksfei121

Дипломная работа Дипломная

12 Сен в 00:12

0 покупок

Web-программирование

Разработка обучающей игры для студентов юристов

1 000 ₽

ksfei121

Дипломная работа Дипломная

11 Сен в 23:24

0 покупок

Web-программирование

Разработка программного обеспечения по обработке изображений методами машинного зрения

1 000 ₽

ksfei121

Дипломная работа Дипломная

11 Сен в 10:31

0 покупок

Предыдущая работа

Разработка информационной системы для ресторанного комплекса

Следующая работа

Разработка информационной системы для художественной галереи

Закажите новую работу, выполненную по вашим требованиям у эксперта.

Темы журнала

Статьи справочника

Прямой эфир