Одна из проблем, связанных с обработкой больших текстовых документов, заключается в том, что большинство датасетов для обучения нейронных сетей в области обработки естественного языка содержат короткие тексты. А наличие хороших данных в большом объеме – важное условие для обучения нейронных сетей. Данная работа направлена на создание корпуса данных с большими текстовыми документами и на исследование применимости языковых моделей в обработке больших текстовых документов на примере найденных и обработанных данных. В качестве таких данных предлагается использовать киносценарии. Это, как правило, тексты, состоящие из 20000- 30000 слов. При этом киносценарии содержат определенную структуру, которая потенциально может оказаться полезной при работе с языковыми моделями. Имеющиеся в открытом доступе датасеты содержат относительно небольшое количество сценариев, так что одной из главных задач было найти, собрать и обработать достаточное количество киносценариев.
Целью работы является разработка алгоритмов анализа киносценариев с применением методов глубокого обучения.
Основные задачи, поставленные для достижения указанной цели:
– изучение литературы по анализу данных в сфере кинематографии;
– поиск источников с киносценариями;
– сбор данных с найденных источников;
– обработка собранных данных;
– разработка и реализация методов анализа собранных данных;
– проведение экспериментов, валидация гиперпараметров;
– анализ полученных результатов.
ВВЕДЕНИЕ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1. Машинное обучение в области кинематографии: задачи и
данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1. Решаемые задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Существующие корпусы данных..................................................... 10
2. Создание нового корпуса данных.......................................................... 11
2.1. Сбор данных...................................................................................... 11
2.2. Обработка данных: текстовые файлы.............................................. 13
2.3. Обработка данных: сопоставление персонажей.............................. 17
2.4. Статистика по собранному корпусу................................................ 23
3. Разработка алгоритмов анализа собранных данных........................... 26
3.1. Методы глубокого обучения для решения задач из
области обработки естественного языка.......................................... 26
3.1.1. Архитектура Transformer........................................................ 26
3.1.2. Языковая модель BERT........................................................... 28
3.2. Дополнение данных как метод улучшения существующих под- ходов к решению задач................................................................................... 32
3.3. Разработка метода дополнения данных на примере задачи NLI . 37 3.3.1. Описание задачи NLI.......................................................................... 37
3.3.2. Предложенный метод дополнения данных............................ 39
3.3.3. Эксперименты и анализ результатов...................................... 41
3.4. Аннотация собранного корпуса с киносценариями....................... 44
3.5. Задачи для собранного корпуса....................................................... 47
3.5.1. Описание задач......................................................................... 47
3.5.2. Методы решения поставленных задач................................... 48
3.5.3. Модификация методов на основе трехэтапного обучения и дополнения данных....................................................................................... 52
3.5.4. Эксперименты и анализ результатов...................................... 53
ЗАКЛЮЧЕНИЕ............................................................................................. 73
СПИСОК ЛИТЕРАТУРЫ............................................................................. 80
ПРИЛОЖЕНИЯ............................................................................................ 88
1. Jacob Eisenstein. Natural Language Processing /Jacob Eisenstein; MIT Press, 2018. – 536 c. – ISBN 9780262042840536.
2. Daniel Zhang. Artificial Intelligence Index Report / Daniel Zhang, Saurabh Mishra // URL: https://aiindex.stanford.edu/wp- content/uploads/2021/03/2021-AI-Index-Report_Master.pdf (дата обра- щения: 24.05.21).
3. Nathan Benaich. State of AI Report 2020 / Nathan Benaich, Ian Hogarth // URL: https://www.stateof.ai/ (дата обращения: 24.05.21).
4. S. Ransbotham. Winning With AI / S. Ransbotham, S. Khodabandeh, R. Fehling, B. LaFountain, D. Kiron // MIT Sloan Management Review and Boston Consulting Group. – 2019.
5. R. Rosenfeld. Two decades of statistical language modeling: where do we go from here? / R. Rosenfeld // Proceedings of the IEEE. – 2000. – C. 1270-1278.
6. Jay M. Ponte. A language modeling approach to information retrieval / Jay M. Ponte, W. Bruce Croft // Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. – 1998. – C. 275–281.
7. Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). – 2019. – С. 4171–4186.
8. Alec Radford. Language Models are Unsupervised Multitask Learners / Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever // URL: https://d4mucfpksywv.cloudfront.net/better-language- models/language-models.pdf (дата обращения: 24.05.21).
9. Tom Brown. Language Models are Few-Shot Learners / Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss // Advances in Neural Information Processing Systems 33. – 2020.
10. Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // Advances in Neural Information Processing Systems 30. – 2017. – С. 5998–6008.
11. Nikita Kitaev. Reformer: The Efficient Transformer / Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya // URL: https://arxiv.org/abs/2001.04451.
12. Sinong Wang. Linformer: Self-Attention with Linear Complexity / Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma // URL: https://arxiv.org/abs/2006.04768.
13. Iz Beltagy. Longformer: The Long-Document Transformer / Iz Beltagy, Matthew E. Peters, Arman Cohan // URL: https://arxiv.org/abs/2004.05150.
14. Kaiming He. Deep Residual Learning for Image Recognition / Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2016. – C. 770-778.
15. Jehoshua Eliashberg. From Story Line to Box Office: A New Approach for Green-Lighting Movie Scripts / Jehoshua Eliashberg, Sam K. Hui University of Penn // Management Science, 53 (6) – 2007. – C. 881-893.
16. Marton Mestyan. Early Prediction of Movie Box Office Success Based on Wikipedia Activity Big Data / Taha Yasseri, Janos Kertesz // URL: https://arxiv.org/abs/1211.0970.
17. You-Jin Kim. Prediction of a Movie’s Success From Plot Summaries Using Deep Learning Models / You-Jin Kim, Jung-Hoon Lee, Yun-Gyung Cheong
// Proceedings of the Second Storytelling Workshop. – August 1, 2019. – C. 127–135.
18. Matthew Peters. Deep Contextualized Word Representations / Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). – 2018. – C. 2227–2237.
19. Ming-Chang Chiu. Screenplay Quality Assessment: Can We Predict Who Gets Nominated? / Ming-Chang Chiu, Tiantian Feng, Xiang Ren, Shrikanth Narayanan // Proceedings of the 1st Joint Workshop on Narrative Understanding, Storylines, and Events. – July 9, 2020.– C. 11–16.
20. Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alexander J. Smola, and Eduard H. Hovy. 2016. Hierarchical attention networks for document classification. Proceedings of HLT-NAACL. – 2016.
21. Mahmoud Azab. Representing Movie Characters in Dialogues / Mahmoud Azab, Noriyuki Kojima, Jia Deng, Rada Mihalcea1 // Proceedings of the 23rd Conference on Computational Natural Language. – November 3-4, 2019. – C. 99–109.
22. Victor R. Martinez. Victim or Perpetrator? Analysis of Violent Character Portrayals from Movie Scripts / Victor R. Martinez, Krishna Somandepalli, Karan Singla, Anil Ramakrishna, Yalda T. Uhls, Shrikanth Narayanan // URL: https://arxiv.org/ftp/arxiv/papers/2008/2008.08225.pdf.
23. Alexandra Schofield. Gender-Distinguishing Features in Film Dialogue/ Alexandra Schofield Leo Mehr // Conference: Proceedings of the Fifth Workshop on Computational Linguistics for Literature. – January, 2016.
24. Qiang Liu. Modeling Dyadic Conversations for Personality Inference // Journal of Latex class files. – august 2015.
25. Mahsa Shafaei. Age Suitability Rating: Predicting the MPAA Rating Based on Movie Dialogues / Mahsa Shafaei, Niloofar Safi Samghabadi, Sudipta Kar and Thamar Solorio // Proceedings of the 12th Conference on Language Resources and Evaluation. – 11–16 May 2020. – C.1327–1335.
26. Evgeny Kim. Frowning Frodo, Wincing Leia, and a Seriously Great Friendship: Learning to Classify Emotional Relationships of Fictional Characters / Evgeny Kim and Roman Klinger // Proceedings of NAACL-HLT.
– June 2 - June 7, 2019. – C. 647–653.
27. Saif Mohammad. Emotions Evoked by Common Words and Phrases: Using Mechanical Turk to Create an Emotion Lexicon / Saif Mohammad, Peter Turney // Proceedings of the NAACL-HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text. – 2010.
28. Philip John Gorinski and Mirella Lapata. What’s this movie about? a joint neural network architecture for movie content analysis // Proceedings of NAACL-HLT 2019. – June 2 – June 7, 2019. – C. 647–653.
29. Anil Ramakrishna, Victor R. Martinez, Nikos Malandrakis, Karan Singla, and Shrikanth Narayanan. Linguistic analysis of differences in portrayal of movie characters // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. – July 30 - August 4, 2017. – C. 1669–1678.
30. Rafael E. Banchs. Movie-DiC: a Movie Dialogue Corpus for Research and Development // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. – 8-14 July 2012. – C. 203–207.
31. Cornell Movie Dialog Corpus // URL: https://www.kaggle.com/Cornell- University/movie-dialog-corpus?select=raw_script_urls.tsv.
32. David R. Automated Screenplay Annotation for Extracting Storytelling Knowledge / David R. Winer, R. Michael Young // URL: https://aaai.org/ocs/index.php/AIIDE/AIIDE17/paper/view/15869 .
33. Christopher D. Manning. An Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze; Cambridge University Press, 2008. – 544 c. – ISBN 0521865719.
34. Dzmitry Bahdanau. Neural Machine Translation by Jointly Learning to Align and Translate / Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio // URL: https://arxiv.org/abs/1409.0473.
35. Jeremy Howard. Universal Language Model Fine-tuning for Text Classification / Jeremy Howard, Sebastian Ruder // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). – 2018. – C. 328–339.
36. Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.
37. Yonghui Wu. Google’s neural machine translation system: Bridging the gap between human and machine translation / Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey // URL: https://arxiv.org/abs/1609.08144.
38. Yada Pruksachatkun. Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work? / Yada Pruksachatkun, Jason Phang, Haokun Liu, Phu Mon Htut, Xiaoyi Zhang, Richard Yuanzhe Pang, Clara Vania, Katharina Kann, Samuel R. Bowman // The 58th Annual Meeting of the Association for Computational Linguistics. – 2020.