Пояснительная записка к диссертации на тему: "Исследование и реализация методов распознавания речи"
В рамках диссертации было разработан сервис для онлайн-тестирования студентов с поддержкой алгоритмов генерации и распознавания речи, обеспечивающих возможность голосового управления для ускорения процесса тестирования
2 ОБЗОР СПОСОБОВ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА.. 13
2.1 Компьютерная лингвистика и обработка естественного языка. 13
2.2 Моделирование естественного языка. 18
2.3 Основные подходы к автоматическому анализу языка. 22
3 ИССЛЕДОВАНИЕ МЕТОДОВ РАСПОЗНАВАНИЯ И СИНТЕЗА РЕЧИ.. 27
3.1 Постановка задач распознавания и синтеза речи. 27
3.2 Искусственные нейронные сети. 31
3.3 Обзор существующих систем распознавания и синтеза речи. 44
3.3.1 Система для работы с естественным языком от Google. 45
3.3.2 Система для работы с естественным языком от Microsoft. 46
3.3.3 Система для работы с естественным языком от Яндекс. 47
3.3.4 Система для работы с естественным языком Web Speech API. 48
4 ИССЛЕДОВАНИЕ СОВРЕМЕННЫХ ИНСТРУМЕНТОВ WEB-РАЗРАБОТКИ.. 49
4.2 Javascript framework vue. 53
4.3 Облачный сервис firebase. 66
5 ПРОЕКТИРОВАНИЕ ПРИЛОЖЕНИЯ.. 73
5.1 Требования к системе и используемые программные средства. 73
5.2 Административный интерфейс системы.. 77
5.3 Пользовательский интерфейс системы.. 81
Перечень принятых терминов. 89
1. Kohli, Rajiv, and Nigel P. Melville. "Digital innovation: A review and synthesis." Information Systems Journal 29.1 (2019): 200-223.
2. The state of broadband 2017: broadband catalyzing sustainable development // International Telecommunication Union (ITU). 2017 [Электронный ресурс]. – Режим доступа: https://www.itu.int/dms_pub/itu-s/opb/pol/S-POL-BROADBAND.18-2017-PDF-E.pdf – Дата доступа: 15.05.2020
3. Rosenfeld, Louis, and Peter Morville. Information architecture for the world wide web. " O'Reilly Media, Inc.", 2002.
4. Кузнецов О.П. Интеллектуализация поддержки управляющих решений и создание интеллектуальных систем // Проблемы управления. – 2009. – 3.1 – С. 64-72.
5. Rabiner, Lawrence R., and Ronald W. Schafer. Theory and applications of digital speech processing. Vol. 64. Upper Saddle River, NJ: Pearson, 2011.
6. Дюк В.А. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях / В.А. Дюк, Флегонтов А.В., Фомина И.К. – Известия Российского государственного педагогического университета им. АИ Герцена, 2011
7. Meng L. An autopilot system based on ROS distributed architecture and deep learning / Liu Meng, Jianwei Niu, Xin Wang – IEEE 15th International Conference on Industrial Informatics, 2017
8. Moreira S. Optimization of NIR spectroscopy based PLSR models for critical properties of vegetable oils used in biodiesel production – Fuel 150, 2015
9. Bhardwaj A. Breast cancer diagnosis using genetically optimized neural network model / Bhardwaj, Arpit Aruna Tiwari – Expert Systems with Applications, 2015
10. Sun Yi Deepid3: Face recognition with very deep neural networks – arXiv preprint arXiv:1502.00873, 2015
11. Amazon Rekognition, облачная платформа машинного обучения [Электронный ресурс]. – Режим доступа: https://aws.amazon.com/ru/rekognition/ – Дата доступа: 15.05.2020
12. Google Cloud Platform, облачная платформа машинного обучения [Электронный ресурс]. – Режим доступа: https://cloud.google.com – Дата доступа: 15.05.2020
13. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс – Litres, 2019
14. LeCun Y. Deep learning / LeCun Y., Bengio Y., Hinton G. – Nature, 2015
15. Erhan Dumitru Scalable object detection using deep neural networks – Proceedings of the IEEE conference on computer vision and pattern recognition, 2014
16. Liu, Ziwei Deep learning face attributes in the wild – Proceedings of the IEEE international conference on computer vision, 2015
17. Schuelke-Leech, Beth-Anne Philosophical and methodological foundations of text data analytics // Frontiers of data science. CRC, forthcoming. – 2017. – С. 459-480.
18. Coursera, платформа для онлайн-обучения [Электронный ресурс]. – Режим доступа: https://www.coursera.org – Дата доступа: 15.05.2020
19. Vue, javascript фреймворк [Электронный ресурс]. – Режим доступа: https://vuejs.org – Дата доступа: 15.05.2020
20. Quasar, javascript библиотека [Электронный ресурс]. – Режим доступа: https://quasar.dev – Дата доступа: 15.05.2020
21. Pug, html-шаблонизатор [Электронный ресурс]. – Режим доступа: https://pugjs.org – Дата доступа: 15.05.2020
22. Stylus, css-препроцессор [Электронный ресурс]. – Режим доступа: http://stylus-lang.com – Дата доступа: 15.05.2020
23. Flex css layout, описание [Электронный ресурс]. – Режим доступа: https://www.w3schools.com/css/css3_flexbox.asp – Дата доступа: 15.05.2020
24. Grid css layout, описание [Электронный ресурс]. – Режим доступа: https://www.w3schools.com/css/css_grid.asp – Дата доступа: 15.05.2020
25. Firebase, сервис от Google [Электронный ресурс]. – Режим доступа: https://firebase.google.com/ – Дата доступа: 15.05.2020
26. Большаков, И.А. КроссЛексика – большой электронный словарь сочетаний и смысловых связей русских слов. // Комп. лингвистика и интеллект. технологии: Труды межд. Конф. «Диалог 2009». – 2009. – 8 (15)
27. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. – М.: Изд-во Московского университета, 2011. – 512 с.
28. Open Corpora: Открытый корпус [Электронный ресурс]. – Режим доступа: http://opencorpora.org – Дата доступа: 15.05.2020
29. Кобозева И.М. Лингвистическая семантика. – М.: Эдиториал УРСС, 2009. – 352 с.
30. Пруцков, А. В. Математико-алгоритмическая формализация моделей морфологического анализа и синтеза словоформ естественных языков // Cloud of science. – 2018. – 4(5) – С. 729-732.
31. Осипов Г. С. TextAppliance-новое решение для интеллектуального поиска и анализа больших массивов текстов // Материалы второго международного профессионального форума «Книга. Культура. Образование. Инновации» («Крым-2016»). – 2016.
32. LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. – 2015. – 521 (7553). – С. 436-444.
33. Omer Levy and Yoav Goldberg. Neural word embedding as implicit matrix factorization // NIPS. – 2014. – С. 2177–2185.
34. Hinton G, Vinyals O., Dean J. Distilling the knowledge in a neural network // Neural Information Processing Systems. Deep Learning Workshop – 2014.
35. Bontcheva K., Maynard D., Tablan V. GATE: A Unicode- based infrastructure supporting multilingual information extraction // In: Proceedings of Workshop on Information Extraction for Slavonic and Other Central and Eastern European Languages (IESL’03), Borovets. – 2003.
36. Томита-парсер. Руководство разработчика [Электронный ресурс]. – Режим доступа: https://tech.yandex.ru/tomita/doc/dg/concept/about-docpage/ – Дата доступа: 15.05.2020
37. OpenNLP [Электронный ресурс]. – Режим доступа: http://opennlp.apache.org – Дата доступа: 15.05.2020
38. Stanford CoreNLP [Электронный ресурс]. – Режим доступа: https://stanfordnlp.github.io/CoreNLP/ – Дата доступа: 15.05.2020
39. J. Padmanabhan and M. Premkumar, Machine learning in automatic speech recognition: A survey, IETE Tech. Rev., vol. 32, no. 4, pp. 240–251, 2015.
40. H.Singhand and A. Bathla, A survey on speech recognition, Int. J. Adv. Res. Comput. Eng. Technol., no. 2, no. 6, pp. 2186–2189, 2013.
41. Anumanchipalli, Gopala K., Josh Chartier, and Edward F. Chang. "Speech synthesis from neural decoding of spoken sentences." Nature 568.7753 (2019): 493-498.
42. Lars Mescheder, Andreas Geiger, and Sebastian Nowozin, “Which training methods for GANs do actually converge?,” in Proc. ICML, 2018, vol. 80, pp. 3481–3490.
43. E. Song, K. Byun, and H.-G. Kang, “Excitnet vocoder: A neural excitation model for parametric speech synthesis systems,” arXiv preprint arXiv:1811.04769, 2018.
44. Aaron van den Oord, Sander Dieleman, Heiga Zen, et al., “WaveNet: A generative model for raw audio,” arXiv pre-print, 2016.
45. Люгер Дж. Искусственный интеллект: стратегии и методы решения сложных проблем – М.: Вильямс, 2005. – 864 с.
46. Хайкин Саймон. Нейронные сети: полный курс, 2-е издание –Издательский дом Вильямс, 2008
47. Тимошенко Л.И. Методы обучения нейронных сетей – Теория. Практика. Инновации 1, 2016
48. Alex Krizhevsky Imagenet classification with deep convolutional neural networks / Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton – Advances in neural information processing systems, 2012
49. Christian Szegedy Going deeper with convolutions / Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich – Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015
50. Schmidhuber Jürgen Deep learning in neural networks: An overview – Neural networks 61, 2015
51. Jia Deng Imagenet: A large- scale hierarchical image database / Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei – Computer Vision and Pattern Recognition, 2009.
52. Microsoft Azure, облачная платформа машинного обучения [Электронный ресурс]. – Режим доступа: https://azure.microsoft.com – Дата доступа: 15.05.2020
53. Яндекс Облако, облачная платформа машинного обучения [Электронный ресурс]. – Режим доступа: https://cloud.yandex.ru – Дата доступа: 15.05.2020
54. Web Speech API, документация [Электронный ресурс]. – Режим доступа: https://wicg.github.io/speech-api/ – Дата доступа: 15.05.2020
55. DeepSpeech, github репозиторий программного продукта [Электронный ресурс]. – Режим доступа: https://github.com/mozilla/DeepSpeech – Дата доступа: 15.05.2020
56. JQuery, javascript библиотека [Электронный ресурс]. – Режим доступа: https://jquery.com – Дата доступа: 15.05.2020
57. Mikowski, Michael, and Josh Powell. Single page web applications: JavaScript end-to-end. Manning Publications Co., 2013.
58. Cordova, система для сборки мобильных приложений из javascript кода [Электронный ресурс]. – Режим доступа: https://cordova.apache.org – Дата доступа: 15.05.2020
59. Electron, система для сборки компьютерных программ из javascript кода [Электронный ресурс]. – Режим доступа: https://electronjs.org – Дата доступа: 15.05.2020
60. React, javascript фреймворк [Электронный ресурс]. – Режим доступа: https://reactjs.org – Дата доступа: 15.05.2020
61. Angular, javascript фреймворк [Электронный ресурс]. – Режим доступа: https://angular.io – Дата доступа: 15.05.2020
62. Npm, менеджер библиотек на языке javascript [Электронный ресурс]. – Режим доступа: https://www.npmjs.com – Дата доступа: 15.05.2020
63. Webpack, автоматизированный сборщик проектов на языке javascript [Электронный ресурс]. – Режим доступа: https://webpack.js.org – Дата доступа: 15.05.2020
64. Node, серверное окружение на языке javascript [Электронный ресурс]. – Режим доступа: https://nodejs.org – Дата доступа: 15.05.2020
65. Vue-devtools, библиотека для vue [Электронный ресурс]. – Режим доступа: https://github.com/vuejs/vue-devtools – Дата доступа: 15.05.2020