Применение методов машинного перевода для решения задачи упрощения предложений на русском языке

Главная

Магазин

Дипломная работа

Лингвистика текста

Применение методов машинного перевода для решения задачи упрощения предложений на русском языке

user242482

Был(а) на сайте 7 дней назад

Раздел

Гуманитарные дисциплины

Предмет

Лингвистика текста

Тип

Дипломная работа

Просмотров

258

Покупок

Антиплагиат

Не указан

Размещена

9 Дек 2021 в 14:01

ВУЗ

МГУ

Курс

4 курс

Стоимость

2 500 ₽

Файлы работы

Каждая работа проверяется на плагиат, на момент публикации уникальность составляет не менее 40% по системе проверки eTXT.

Применение методов машинного перевода для решения задачи упрощения предложений на русском языке Диплом Лингвистика 97

431.5 Кбайт 2 500 ₽

Описание

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Применение методов машинного перевода для решения задачи упрощения предложений на русском языке»

Оригинальность работы 97%

Введение

Автоматические методы обработки естественного языка в последние годы вызывают все больший интерес. Исследователям удалось достичь значительных успехов в данной области. Например, уже сегодня люди часто прибегают к машинному переводу для того, чтобы перевести какую-то информацию или общаться на иностранном языке. На данный момент эта задача чаще всего решается с помощью sequence-to-sequence обучения, также как и задача упрощения предложений, которая заключается в превращении исходного предложения в его упрощенный вариант с помощью удаления сложных лексических единиц и синтаксических конструкций или их замены на более простые.

Решение вышеупомянутых задач является одним из приоритетных направлений в сфере обработки естественного языка, так как это существенно помогло бы продвинуться в понимании как структуры отдельных языков, так и связей между разными языками мира в целом. С практической же точки зрения создание системы машинного перевода, позволяющей добиться качества, сопоставимого с эталоном человеческого перевода, открыло бы большие возможности для перевода текстов, принадлежащих специфическим областям. Что касается упрощения предложений, решение этой задачи релевантно для приведения информации в более простой и доступный вид, который будет понятен, например, детям, людям с когнитивными отклонениями и тем, кто только начинает изучать иностранный язык.

Есть много статей, посвященных изучению преимуществ применения методов машинного перевода для автоматического упрощения предложений. Исследователи подробно осветили, как модели, созданные для перевода, могут быть адаптированы для упрощения предложений, а также как автоматически переведенные данные могут быть использованы для обучения или точной настройки моделей. Хотя в этой области было много достижений, все еще остаются и значительные пробелы, обусловленные следующими причинами. Во-первых, применяемые методы машинного перевода по-прежнему допускают серьезные ошибки как на синтаксическом, так и на грамматическом уровне и не учитывают вариативность языка. Более того, отсутствие в некоторых языках, отличных от английского, общедоступного параллельного корпуса для упрощения предложений не позволяет исследователям экспериментировать с текстами на данном языке.

Таким образом, хотя авторы многих исследований успешно рассмотрели обе sequence-to-sequence задачи в отдельности и конкретно то, как машинный перевод может быть использован для создания модели, позволяющей получать упрощенные предложения, - многие проблемы все еще только предстоит решить.

Актуальность данной работы обусловлена тем, что задача автоматического упрощения предложений не была достаточно изучена в русском языке. Данное исследование является частью проекта в рамках соревнования RuSimpleSentEval [1], посвященного автоматическому упрощению предложений. Одной из основных задач проекта было создание первого русскоязычного параллельного корпуса упрощенных предложений. Ранее такого оригинального корпуса, так же, как и автоматически переведенного с английского набора данных для этой задачи не существовало. Кроме того, самой проблеме обучения модели для автоматического упрощения предложений на русском языке не было уделено должное внимание.

Таким образом, основной целью этого исследования является изучение роли машинного перевода в обучении моделей для автоматического упрощения предложений и преодоления проблемы нехватки данных. Данная работа должна внести вклад в изучение машинного перевода как в общем, так и в контексте упрощения русскоязычных предложений.

В таком случае, объектом исследования будут являться методы машинного перевода, а предметом – их применение для перевода параллельных корпусов простых предложений и обучения моделей для упрощения предложений на русском языке.

Оглавление

Введение. 3

1. Обзор задач машинного перевода и упрощения предложений. 7

1.1 Sequence-to-sequence обучение. 7

1.2 Основные методы машинного перевода. 10

1.3 Подходы к задаче упрощения предложений. 13

1.4 Корпусы упрощенных предложений. 17

1.5 Методы и метрики для оценки качества перевода и упрощения. 20

Выводы к главе 1. 22

2. Применение методов машинного перевода для решения задачи упрощения предложений на русском языке. 24

2.1 Автоматический перевод корпуса WikiLarge и анализ результатов. 24

2.1.1 Корпус WikiLarge. 24

2.1.2 Перевод WikiLarge на русский язык. 27

2.1.3 Русскоязычный корпус предложений. 30

2.2 Эксперименты с обучением модели для упрощения предложений на русском языке 31

2.2.1 Базовое решение. 31

2.2.2 Обучение mBART для упрощения предложений. 32

2.2.3 Результаты.. 34

2.3 Качественная оценка перевода и упрощения предложений. 37

2.3.1 Проведение опроса и его результаты.. 37

2.3.2 Отдельные примеры из данных. 40

Выводы к главе 2. 47

Заключение. 49

Список литературы.. 51

Приложения. 57

Список литературы

1. Alva-Manchego, F. Learning how to simplify from explicit labeling of complex-simplified text pairs [Текст] / Alva-Manchego, F., Bingel, J., Paetzold, G., Scarton, C., Specia, L // In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2017. - С. 295 - 305.

2. Alva-Manchego, F. Easier Automatic Sentence Simplification Evaluation [Текст] / Alva-Manchego, F., Martin, L., Scarton, C., Specia, L. // EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Proceedings of System Demonstrations, 2019. - С. 49–54.

3. Alva-Manchego F. ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations [Электронный ресурс] / Alva-Manchego, F., Martin, L., Bordes, A., Scarton, C., Sagot, B., Specia, L. // arXiv preprint arXiv:2005.00481, 2020 – Режим доступа: https://arxiv.org/pdf/2005.00481.pdf. – 13.05.2021.

4. Bahdanau D. Neural machine translation by jointly learning to align and translate [Текст] / Bahdanau D., Cho K. H., Bengio Y. // 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings.: International Conference on Learning Representations, ICLR, 2015.

5. Brouwers, L. Syntactic sentence simplification for French [Текст] / Brouwers, L., Bernhard, D., Ligozat, A. L., François, T. // In Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR), 2014. – С. 47-56.

6. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / Devlin, J., Chang, M. W., Lee, K., Toutanova, K. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 2018. – С. 4171–4186.

7. Nisioi, S. Exploring neural text simplification models [Текст] / Nisioi, S., Štajner, S., Ponzetto, S. P., Dinu, L. P // In Proceedings of the 55th annual meeting of the association for computational linguistics (volume 2: Short papers), 2017. – С. 85-91.

8. Dong, Y. EditNTS: A Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing [Текст] / Dong, Y., Li, Z., Rezagholizadeh, M., Cheung, J. C. K. // ACL 2019 - 57th Annual Meeting of the Association of Computer Linguists, Proceedings Conference., 2019. - С. 3393–3402.

9. Feng, F. Language-agnostic BERT Sentence Embedding [Электронный ресурс] / Feng, F., Yang, Y., Cer, D., Arivazhagan, N., Wang, W. // arXiv preprint arXiv:2007.01852, 2020. - Режим доступа: https://arxiv.org/pdf/2007.01852.pdf – 13.05.2021.

10. Flesch R. A new readability yardstick [Текст] // Journal of applied psychology, Т. 32 №3, 1948. - С. 221–233.

11. Gudkov V. Automatically Ranked Russian Paraphrase Corpus for Text Generation [Электронный ресурс] // Gudkov V., Mitrofanova O., Filippskikh E. // arXiv preprint arXiv:2006.09719, 2020. - Режим доступа: https://arxiv.org/pdf/2006.09719.pdf – 13.05.2021.

12. Hochreiter S. Long Short-Term Memory [Текст] / Hochreiter S., Schmidhuber J.// Neural computation Т. 9. № 8., 1997. - С. 1735–1780.

13. Huang Z. Bidirectional LSTM-CRF Models for Sequence Tagging [Электронный ресурс] / Huang Z., Xu W., Yu K. // arXiv preprint arXiv:1508.01991, 2015 - Режим доступа: https://arxiv.org/pdf/1508.01991.pdf – 13.05.2021.

14. Jordan, M. I. Serial order: a parallel distributed processing approach. Technical report [Текст] // No. AD-A-173989/5/XAB; ICS-8604. California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, 1986.

15. Junczys-Dowmunt M. Marian: Fast Neural Machine Translation in C++ [Текст] / Junczys-Dowmunt, M., Grundkiewicz, R., Dwojak, T., Hoang, H., Heafield, K., Neckermann, T., Seide, F., Germann, U., Aji, A.F., Bogoychev, N., Martins, A.F. //ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of System Demonstrations, 2018. - С. 116–121.

16. Katsuta, A. Crowdsourced corpus of sentence simplification with core vocabulary [Текст] / Katsuta, A., Yamamoto, K. // In Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.

17. Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language [Электронный ресурс] / Kuratov Y., Arkhipov M. // arXiv preprint arXiv:1905.07213, 2019. - Режим доступа: https://arxiv.org/pdf/1905.07213.pdf – 13.05.2021.

18. Lavie, A. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments [Текст] / Lavie, A., Agarwal, A. // In Proceedings of the second workshop on statistical machine translation, 2007. - С. 228–231.

19. Liu, X. Very deep transformers for neural machine translation [Электронный ресурс] / Liu, X., Duh, K., Liu, L., Gao, J. // arXiv preprint arXiv:2008.07772, 2020. - Режим доступа: https://arxiv.org/pdf/2008.07772.pdf – 13.05.2021.

20. Liu, Y Roberta: A robustly optimized bert pretraining approach [Электронный ресурс] / Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. // arXiv preprint arXiv:1907.11692, 2019. - Режим доступа: https://arxiv.org/pdf/1907.11692.pdf – 13.05.2021.

21. Liu Y. Multilingual denoising pre-training for neural machine translation [Текст] / Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., Lewis, M., Zettlemoyer, L. // Transactions of the Association for Computational Linguistics, Т.8, 2020. - С. 726–742.

22. Luong M. T. Effective approaches to attention-based neural machine translation [Текст] / Luong M. T., Pham H., Manning C. D.// Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing. : Association for Computational Linguistics (ACL), 2015. - С. 1412–1421.

23. Martin, L Multilingual unsupervised sentence simplification [Электронный ресурс] / Martin, L., Fan, A., de la Clergerie, É., Bordes, A., Sagot, B. // arXiv preprint arXiv:2005.00352, 2020. - Режим доступа: https://arxiv.org/pdf/2005.00352.pdf – 13.05.2021.

24. Narayan, S. Hybrid simplification using deep semantics and machine translation [Текст] / Narayan, S., Gardent, C. // In The 52nd annual meeting of the association for computational linguistics, 2014. - С. 435–445.

25. Nishihara, D. Controllable text simplification with lexical constraint loss [Текст] / Nishihara, D., Kajiwara, T., Arase, Y. // In Proceedings of the 57th annual meeting of the association for computational linguistics: Student research workshop, 2019. - С. 260–266.

26. Ott M. A Fast, Extensible Toolkit for Sequence Modeling [Текст] / Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., Grangier, D, Auli, M. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Demonstrations Session, 2019. - С. 48–53.

27. Papineni, K. Bleu: a method for automatic evaluation of machine translation [Текст] / Papineni, K., Roukos, S., Ward, T., Zhu, W. J. // In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002. - С. 311–318.

28. Post, M. A Call for Clarity in Reporting BLEU Scores [Электронный ресурс] // arXiv preprint arXiv:1804.08771, 2018. - Режим доступа: https://arxiv.org/pdf/1804.08771.pdf – 13.05.2021.

29. Rumelhart, D. Learning internal representations by error propagation [Текст] / Rumelhart, D. E., Hinton, G. E., Williams, R. J. // Learning internal representations by error propagation. California Univ San Diego La Jolla Inst for Cognitive Science, 1985.

30. Sennrich. R. A. Neural machine translation of rare words with subword units [Текст] / Sennrich R., Haddow B., Birch A. // 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers.: Association for Computational Linguistics (ACL), 2016. - С. 1715–1725.

31. Sulem, E. Simple and Effective Text Simplification Using Semantic and Neural Methods [Текст] / Sulem, E., Abend, O., Rappoport, A. // ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers Т. 1), 2018. - С. 162–173.

32. Sulem, E BLEU is not suitable for the evaluation of text simplification [Текст] / Sulem, E., Abend, O., Rappoport, A. // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018.: Association for Computational Linguistics, 2020. - С. 738–744.

33. Vaswani A Attention is all you need [Текст] / Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. Polosukhin, I. // Advances in Neural Information Processing Systems, 2017. - С. 5999–6009.

34. Wu, Y. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Электронный ресурс] / Wu, Y., Schuster, M., Chen, Z., Le, Q.V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K. Klingner, J. // arXiv preprint arXiv:1609.08144, 2016. - Режим доступа: https://arxiv.org/pdf/1609.08144.pdf – 13.05.2021.

35. Wubben, S. Simplification by Monolingual Machine Translation [Электронный ресурс] / Wubben, S., Krahmer, E // Radboud Repository of the Radboud University Nijmegen, 2012. - Режим доступа: https://repository.ubn.ru.nl/bitstream/handle/2066/101996/101996.pdf - 13.05.2021.

36. Xu, W. Optimizing statistical machine translation for text simplification [Текст] / Xu, W., Napoles, C., Pavlick, E., Chen, Q., Callison-Burch, C. // Optimizing statistical machine translation for text simplification. Transactions of the Association for Computational Linguistics, Т. 4, 2020. - С. 401–415.

37. Xu, W. Problems in current text simplification research: New data can help [Текст] / Xu, W., Callison-Burch, C., Napoles, C. // Transactions of the Association for Computational Linguistics, 2015. - Т.3. - С. 283–297.

38. Zhang X. Sentence Simplification with Deep Reinforcement Learning [Текст] / Zhang, X., Lapata, M. // EMNLP 2017 - Conference on Empirical Methods in Natural Language Processing, Proceedings, 2017. - С. 584–594.

39. Zhao G. MUSE: Parallel multi-scale attention for sequence to sequence learning [Электронный ресурс] / Zhao, G., Sun, X., Xu, J., Zhang, Z., Luo, L. // arXiv preprint arXiv:1911.09483, 2019. - Режим доступа: https://arxiv.org/pdf/1911.09483.pdf – 13.05.2021.

40. Zhu Z. Monolingual Tree-based Translation Model for Sentence Simplification / Zhu, Z., Bernhard, D., Gurevych, I. // In Proceedings of the 23rd International Conference on Computational Linguistics, 2010. С. 1353–1361.

41. Англо-русский параллельный корпус Яндекса [Электронный ресурс] / Yandex // - Режим доступа: https://translate.yandex.ru/corpus?lang=en – 13.05.2021.

Вам подходит эта работа?

Похожие работы

Лингвистика текста

Лингвистическая прагматика и составление текстов (НИНХ 2 вариант)

300 ₽

nslnv_help

Контрольная работа Контрольная

12 Фев в 18:12

0 покупок

Лингвистика текста

Сопоставительно-лингвостилистический анализ языковых средств репрезентации образа моря в творчестве поэтов Серебряного века (Н.С. Гумилева, В.Я. Брюсова, И.Северянина).

300 ₽

arktika662628

Доклад Доклад

4 Мая 2024 в 11:40

136

0 покупок

Лингвистика текста

Синтаксические конструкции с метафорическим значением предиката

8 000 ₽

Annauchitel

Дипломная работа Дипломная

2 Мая 2024 в 14:32

0 покупок

Лингвистика текста

Метафоры в публицистическом тексте и их передача на русский язык

1 800 ₽

Helena5

Дипломная работа Дипломная

1 Мар 2024 в 13:09

105

0 покупок

Лингвистика текста

В результате выполнения работы была спроектирована и разработана автоматизированная информационная система в виде веб-приложения для автоматизации работы профкома.

1 800 ₽

user637176

Дипломная работа Дипломная

2 Сен 2023 в 21:55

101

0 покупок

Другие работы автора

Дизайн

ПЕРЕГОРОДКИ В СТИЛЕ «САФАРИ»

800 ₽

user242482

Курсовая работа Курсовая

6 Июл 2023 в 00:04

212

0 покупок

Информационные технологии

Особенности работы беспроводных информационных технологий Информационные технологии

550 ₽

user242482

Курсовая работа Курсовая

5 Июл 2023 в 23:59

323

0 покупок

Менеджмент

Оперативное планирование с применением Lean-технологий в ООО «Со-кольский Лесхоз», р. п. Сокольское Нижегородской области» Княгининского района Нижегородской области

550 ₽

user242482

Курсовая работа Курсовая

5 Июл 2023 в 23:55

246

0 покупок

Водный транспорт

Управление судами и подготовка их к выполнению перевозок на т/х «Краснодон», на участке р.Енисей, используя эффективность СЭУ.

2 500 ₽

user242482

Дипломная работа Дипломная

30 Янв 2023 в 15:52

239

0 покупок

Нефтегазовое дело

Технологии строительства эксплуатационной скважины с горизонтальным окончанием №119 на нефть, глубиной 2400 метров на Приобском месторождении ХМАО с применением бурового раствора на углеводородной основе.

5 000 ₽

user242482

Дипломная работа Дипломная

30 Янв 2023 в 15:47

197

0 покупок

Социология

Социальная политика в США в условиях глобализации: эволюция и противоречия

2 500 ₽

user242482

Дипломная работа Дипломная

30 Янв 2023 в 15:04

290

0 покупок

Уголовное право

Воинские преступления

450 ₽

user242482

Курсовая работа Курсовая

23 Янв 2023 в 15:06

389

1 покупка

Философия

Онтологическая настроенность в видеоиграх: смех и жуть

1 500 ₽

user242482

Курсовая работа Курсовая

23 Янв 2023 в 14:57

273

0 покупок

Животноводство

Методы диагностики и лечения мастита в условиях ООО «Экониваагро – восточное», Бобровский район Воронежской области.

2 500 ₽

user242482

Дипломная работа Дипломная

23 Янв 2023 в 14:45

258

0 покупок

Электроснабжение

Надежность и диагностика систем электроснабжения при выборе оптимальных технических решений

450 ₽

user242482

Курсовая работа Курсовая

21 Янв 2023 в 22:58

302

1 покупка

Техническое обслуживание и ремонт автомобилей

Участок по капитальному ремонту ДВС

550 ₽

user242482

Курсовая работа Курсовая

21 Янв 2023 в 22:53

271

0 покупок

Макроэкономика

Рынок заемных средств и особенности формирования процентных ставок в российской экономике

450 ₽

user242482

Курсовая работа Курсовая

21 Янв 2023 в 22:45

220

0 покупок

История

Женщины в Отечественной войне 1812 года

550 ₽

user242482

Курсовая работа Курсовая

21 Янв 2023 в 22:39

201

0 покупок

Реклама и PR

Исследование отношения потребителей к промо-акциям предприятия

550 ₽

user242482

Курсовая работа Курсовая

2 Окт 2022 в 14:06

235

0 покупок

Стратегический менеджмент

Формирование корневых компетенций организации

550 ₽

user242482

Курсовая работа Курсовая

19 Сен 2022 в 16:06

249

0 покупок

Гражданское право

Третьи лица в исковом судопроизводстве

500 ₽

user242482

Курсовая работа Курсовая

19 Сен 2022 в 16:01

299

1 покупка

Реклама и PR

Исследование контента предприятия и его конкурентов в социальной сети инстаграм

500 ₽

user242482

Курсовая работа Курсовая

19 Сен 2022 в 15:54

252

0 покупок

Реклама и PR

Создание сайта и бумажной рекламной продукции для салон-парикмахерских «ALASKA»

500 ₽

user242482

Курсовая работа Курсовая

19 Сен 2022 в 15:49

288

0 покупок

Педагогическая психология

Психолого-педагогические факторы формирования феномена групповой сплочённости

600 ₽

user242482

Курсовая работа Курсовая

19 Сен 2022 в 15:46

324

0 покупок

Лексикология

ФОРМИРОВАНИЕ ЛЕКСИЧЕСКИХ НАВЫКОВ ОБУЧАЮЩИХСЯ НА ОСНОВЕ ИГРОВЫХ ТЕХНОЛОГИЙ НА СРЕДНЕМ ЭТАПЕ ОБУЧЕНИЯ

2 500 ₽

user242482

Дипломная работа Дипломная

19 Сен 2022 в 15:28

296 +1

0 покупок

Предыдущая работа

Электрические машины

Следующая работа

Задачи по дисциплине Гражданское право

Закажите новую работу, выполненную по вашим требованиям у эксперта

Темы журнала

Статьи справочника

Прямой эфир