Оригинальность по АП.Вуз на 26 февраля 2023 года более 70%.
Оригинал документа в pdf, конвертация в Word автоматическая (в word могут быть недочеты, которые вы легко исправите самостоятельно).
Работа состоит из введения, трёх основных частей, заключения и списка
источников.
Во введении формулируются цели и задачи исследования, указывается
актуальность и практическая ценность, а также кратко описывается структура
работы.
В первой части изложены основные понятия и инструменты
компьютерной лингвистики, а также её история. Вторая часть посвящена
теоретическим этапам перед созданием корпуса поэтических текстов. В
качестве основного программного обеспечения используется платформа TXM.
Наконец, в третьем разделе производится анализ полученного корпуса
поэтических текстов Серебряного века посредством того же программного
комплекса.
Задачи выпускной работы
Для достижения цели были поставлены следующие задачи:
1. Изучить компьютерную лингвистику и методы корпусного анализа.
2. Разобрать тему составления корпусов поэтических текстов посредством
инструментария платформы ТХМ.
3. Изучить теоретический материал по теме поэзии Серебряного века.
4. По полученным данным проанализировать образованные поэтические подкорпусы.
Созданный поэтический корпус может применяться в дальнейших
исследованиях русской поэзии, а также создание такого корпуса является
укреплением и популяризацией платформы ТХМ.
Поэтому не только лингвисты, но и математики и программисты
заинтересованы в поисках средства автоматизированного анализа текстов для
упрощения работы с различной литературой. Это достаточно непростая цель,
поскольку решение трудоемких прикладных задач в лингвистическом поле
подразумевает анализ больших объемов текстов.
С теоретической точки зрения всё понятно, а на практике нужно новое
достаточно стабильное программное обеспечение, которое справится с
большими объёмами информации, тем самым упростит и автоматизирует
анализ корпусов. На помощь в решении этой проблемы пришла платформа
TXM [1] (далее просто TXM), которая используется в этой работе. Это
программное обеспечение позволяет найти в корпусе те или иные языковые
конструкции, соотнести и сравнить их друг с другом, вычислить
разнообразные статистические характеристики таких корпусов и др.
Изучение и анализ художественной литературы допускает различные
подходы: беллетристика может изучаться как вспомогательный материал для
исследования философских, экономических, исторических и социальных
проблем, а также может послужить доступным информационным источником
о быте и нравственных нормах той или иной страны и даже эпохи. Очень часто
для того, чтобы выполнить какую-то поставленную художественную цель,
произведение должно нести политическую, нравственную, публицистическую
и философскую функции. Но это также работает и наоборот: к примеру, чтобы
определить некую политическую роль, текстовый материал должен воплощать
и эстетическую функцию. Интерес в изучении именно поэтических текстов
объясняется тем, что на них «накладываются» дополнительные по отношению
к языку условия: соблюдение фонологической рифмовки, определенных
ритмических норм, лексическая и идейно-композиционная целостность. И
именно эти условия приводят к очевидному росту новых и значимых
сочетаний элементов внутри поэзии, ведь, к примеру, некое словосочетание,
которое является в языке чем-то формальным, приобретает в поэтических
текстах семантический характер, при этом получая дополнительные и яркие
значения. Анализ поэтических словарей помогает определить, какие языковые
особенности или исторические периоды имеют наибольшее влияние на эти
тексты, ведь различные исторические события, как например, политические,
экономические и социальные имеют несомненно весомое влияние на
эволюцию литературного языка в целом и в актуальность различных вопросов
тех лет.
Содержание
Введение ........................................................................................................................ 4
Цель выпускной работы ...................................................................................................... 4
Задачи выпускной работы .................................................................................................. 4
Методы исследования ........................................................................................................ 4
Практическая ценность ....................................................................................................... 4
Структура работы ................................................................................................................. 4
Вводные сведения ............................................................................................................... 5
1. Глава I. Компьютерная лингвистика: история и основные понятия .......... 7
1.1 Понятие компьютерной лингвистики ........................................................................... 7
1.1.1 История компьютерной лингвистики ................................................................................... 7
1.2 Концепция компьютерной лингвистики ...................................................................... 8
1.2.1 Корпусы и их особенности .................................................................................................. 10
1.2.2 Классификация корпусов .................................................................................................... 11
1.3 Основные инструменты корпусной лингвистики ...................................................... 13
1.3.1 Морфология и семантика ................................................................................................... 14
1.3.2 Псевдоосновы и леммы ...................................................................................................... 15
2. Глава II. Разработка корпуса поэтических текстов .................................... 18
2.1 Платформа ТХМ ........................................................................................................... 18
2.1.1 TreeTagger ........................................................................................................................... 19
2.2 Основные механизмы количественной оценки ........................................................ 20
2.2.1 Анализ соответствий ........................................................................................................... 20
2.2.2 Анализ специфичности ....................................................................................................... 21
2.3 Серебряный век русской поэзии................................................................................. 22
2.4 Разработка корпуса в рамках поэзии Серебряного века .......................................... 25
3. Глава III. Анализ корпуса поэтических текстов ........................................... 27
3.1 Описание поэтического корпуса ................................................................................. 27
3.2 Анализ соответствий корпуса поэтических текстов ................................................... 29
3.3 Анализ соответствий для авторов ............................................................................... 34
3.4 Анализ специфичности корпуса поэтических текстов ............................................... 40
3.5 Выводы по результатам анализа ................................................................................ 45
Заключение ................................................................................................................. 47
Литература ............................................................................................................... 48
Литература
1. Heiden S. The TXM Platform: Building Open-Source Textual Analysis
Software Compatible with the TEI Encoding Scheme // 24th Pacifc Asia
Conference on Language, Information and Computation - PACLIC24 / Ed. R.
Otoguro, K. Ishikawa, H. Umemoto, K. Yoshimoto and Y. Harada. Institute
for Digital Enhancement of Cognitive Development, Waseda University,
Sendai, Japan. 2010 p. 389—398.
2. Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания.
М.: Издательство Московского Университета, 1992. 336 с.
3. Информатика: энциклопедический словарь для
начинающих/Сост.Д.А.Поспелов. М.: Педагогика-Пресс, 1994. 352 с.
4. Городецкий Б. Ю. Компьютерная лингвистика: моделирование
языкового общения. Новое в зарубежной лингвистике. Выпуск XXIV:
Компьютерная лингвистика. М. Прогресс, 1989. 432 с.
5. Пентус А.Е., Пентус М.Р. Теория формальных языков: учебное пособие.
М.: Изд-во ЦПИ при механико-математическом ф-те МГУ, 2004. 80 с.
6. Калугян К. Х. Информационные технологии в лингвистике //
Информационные системы, экономика, управление трудом и
производством: Ученые записки. Вып. 12. Ростов-на-Дону: РГЭУ
«РИНХ», 2008. 73-76 с.
7. Бахтин, М. М. Формальный метод в литературоведении. Москва:
Лабиринт, 1993. 205 с.
8. Корпусная лингвистика [Электронный ресурс] // Фонд знаний
«Ломоносов». Режим доступа: http://lomonosov-fund.ru .
9. Greenbaum S. CE: the International Corpus of English / Greenbaum S. //
English Today. 28. October, 1991.
10. Захаров В. П. Корпусная лингвистика: Учебник для студентов
направления «Лингвистика» / Захаров В. П., Богданова С. Ю. - 2-е изд.,
перераб. и дополн. - СПб: СПбГУ, РИО. Филологический факультет,
2013. - 148 с.
11. Willis D. The Lexical Syllabus. A New Approach to Language Тeaching.
Collins ELT. London & Glasgow, 1990; Sinclair J. Corpus, Concordance,
Collocation. Oxford University Press, 1991; B. Hoye М. Рatterns of Lexis in
Text. Oxford University Press, 1991.
12. Biber D., Susan C., Reppen R. Corpus linguistics. Investigating language
structure and use, Cambridge, university Press, 1998.
13. Корпусная лингвистика [Электронный ресурс] // Режим доступа:
14. Фонд знаний «Ломоносов» // Корпусная лингвистика [Электронный
ресурс] // Режим доступа: http://www.lomonosov-
fund.ru/enc/ru/encyclopedia:01210:article .
15. Бардина Т. Н. Проблема лексико-грамматической переходности частей
речи в современном русском языке. Диссерт. на соискан. – Волгоград,
2001. - 196 с.
16. Виноградов В. В. Русский язык: Грамматическое учение о слове. М:
Высшая школа, 1986. -639 с.
17. Батура. Т.В., Мурзин Ф.А. Машинно-ориентированные логические
методы отображения семантики текста на естественном языке:
монография. Новосибирск: Изд во НГТУ, 2008, 248 с.
18. Падучева Е. В. Динамические модели в семантике лексики. М.: Языки
славянской культуры, 2004. 608 с.
19. Тузов В.А. Компьютерная семантика русского языка. СПб: Изд. во
СПбГУ, 2003. 391 с.
20. Egorova E., Chepovskiy A., Lavrentiev A. A structural pattern based method
for automated morphological analysis of word forms in a natural language.
Journal of Mathematical Sciences, 2016, vol. 214, no. 6, p. 802–813.
21. А. В., Чеповский А. М. Методы автоматического анализа словоформ //
Информационные технологии. 2011. № 4 (176). 24-29 с.
22. Соловьев Ф. Н. Автоматическая обработка текстов на основе платформы
TXM с учетом анализа структурных единиц текста // Вестник НГУ.
Серия: Информационные технологии. 2020. Т. 18, No1. 74–82 с.
23. Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees //
Proceedings of International Conference on New Methods in Language
Processing. Manchester, UK. 1994. p. 1051-1060.
24. The R Project for Statistical Computing // [Электронный ресурс]:
25. Lê S., Josse J., & Husson F. FactoMineR: an R package for multivariate
analysis // Journal of statistical software.2008. № 25 (1). p. 1-18.
26. Михайлов А. В. Диалектика литературной эпохи // Михайлов А. В.
Языки культуры. Учебное пособие по культурологии. М., 1997. 11–42 с.
27. Рапацкая Л. А. Искусство серебряного века. -М.: Просвещение:
«Владос», 1996. – 192 с.
28. Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н., Суворова М. И.,
Фокина А. И., Чеповский А. М. (2018), Создание специальных корпусов
текстов на основе расширенной платформы TXM, Системы высокой
доступности, 14 (3), 76–81 с.
29. Benzécri J.-P. L’analyse des données: l’analyse des Correspondances. 2nd ed.
Vol. 2. Paris: Dunod. 1979.
30. Lafon P. Sur la variabilité de la fréquence des formes dans un corpus // Mots.
1980. № 1. p. 127-165.
31. Венгеров С А. Русская литература XX века (1890–1910): В 3 т. Т. 1. М.:
Мир, 1914. -411 с.
32. Иванов Г. В. Собр. соч.: В 3 т. Т. 3. Мемуары. Литературная критика. М.:
Согласие, 1994. – 720 с.
33. Вислова А. В. Серебряный век как театр. – М., 2000. – 212 с.
34. Чеповский А. М. Информационные модели в задачах обработки текстов
на естественных языках. Второе издание, переработанное. М.:
Национальный открытый университет «ИНТУИТ», 2015. 276 с.
35. Топоров В.Н. Миф. Ритуал. Символ. Образ: Исследования в области
мифопоэтического. – М., 1995. – 624 с.
36. Громов И. А. «Серебряный век» русской культуры. Социально-
философский аспект. – СПБ., 1996.