В наше время, когда глобализация и международные связи приобретают все большее значение, эффективные инструменты для перевода становятся особенно важными. Межкультурные взаимодействия, деловые переговоры и глобальная коммуникация требуют решений, способных быстро и точно преодолевать языковые барьеры. Технологии голосового перевода могут значительно упростить эти процессы, создавая мосты между разными культурами и народами. Голосовой перевод играет ключевую роль в различных областях. В бизнесе он ускоряет процессы, улучшает взаимодействие с международными партнерами и клиентами, а также помогает осваивать новые рынки. В туризме такие технологии делают путешествия более удобными, позволяя туристам легко общаться с местными жителями и получать нужную информацию. В образовательной сфере технологии голосового перевода открывают новые возможности для студентов и преподавателей, облегчая доступ к знаниям и культурному обмену.
Приложение, использующее индивидуальные голосовые особенности пользователя для перевода речи, представляет собой значительный шаг вперед в развитии таких инструментов. Оно не только переводит слова, но и сохраняет уникальные голосовые характеристики, делая перевод максимально естественным и приближенным к оригиналу. Благодаря использованию технологий машинного обучения и синтеза речи, создается интуитивно понятный и мощный инструмент, способный изменить подход к межъязыковой коммуникации.
Таким образом, целью данной работы является разработка мобильного приложения, способного распознавать и переводить речь пользователя, а также синтезировать переведенный текст в речь с сохранением индивидуальных голосовых особенностей пользователя.
Для достижения указанной цели были поставлены следующие задачи:
1) Анализ и обзор существующих методов и технологий перевода речи.
2) Изучение методов машинного обучения для синтеза речи и анализ существующих архитектур.
3) Создание датасета для обучения модели синтеза речи.
4) Дообучение модели синтеза речи TTS (Text-to-Speech) на собранном датасете.
5) Разработка мобильного приложения с функциями записи аудио, распознавания речи, перевода текста и воспроизведения синтезированной речи.
6) Разработка серверной части для обработки аудиозаписей, включая распознавание речи, перевод текста и синтез речи на целевом языке.
7) Интеграция мобильного приложения с сервером для обеспечения надежной и быстрой связи между компонентами системы.
Развитие таких технологий не только отвечает текущим потребностям общества, но и закладывает основу для будущих инноваций, способных преодолеть любые языковые барьеры. Это приложение имеет потенциал существенно улучшить качество жизни людей, облегчая их повседневные взаимодействия и способствуя созданию более связанного и понимающего мира.
СОДЕРЖАНИЕ 2
ВВЕДЕНИЕ 3
1. Исследование и анализ технологий голосового перевода 5
1.1. Анализ текущих приложений для перевода 5
1.2. Изучить и проанализировать методы распознавания речи 6
1.2.1. Методы распознавания речи 6
1.2.2. Использования методов распознавания речи 8
1.3. Анализ методов и алгоритмов синтеза речи. 9
1.3.1. Методы синтеза речи 9
1.3.2. Использования методов синтеза речи 10
2. Применение методов машинного обучения 12
2.1. Создание и обработка датасета 12
2.1.1. Описание и сбор датасета 13
2.1.2. Обработка аудио 14
2.1.3. Транскрипция аудио 15
2.2. Дообучение модели TTS на собранном датасете 17
2.2.1. Описание модели TorToise 17
2.2.2. Дообучения (Fine-Tuning) модели TTS 19
2.2.3. Процесс дообучения 20
2.2.4. Процесс обучения и тонкой настройки модели TTS 22
2.2.5. Настройки модели для дообучения TTS модели 24
3. Общая архитектура и используемые технологии 26
3.1. Архитектура программного решения 26
3.2. Используемые технологии 27
3.3. Разработка и архитектура 27
3.4. Логика работы сервера 28
4. Процесс взаимодействия приложения голосового перевода 29
4.1. Процесс работы мобильного приложения 29
4.2. Процесс обработки запросов на сервере 34
4.3. Реализация экранов мобильного приложения 35
ЗАКЛЮЧЕНИЕ 38
ГЛОССАРИЙ 40
СПИСОК ИСТОЧНИКОВ 42
ПРИЛОЖЕНИЯ 45
1. Google Translate [Электронный ресурс]// google.com URL:
https://translate.google.com (Дата обращения: 01.12.2023).
2. Yandex Translate [Электронный ресурс] // yandex.ru URL:
https://translate.yandex.ru (Дата обращения: 09.12.2023).
3. Microsoft Translator [Электронный ресурс] // microsoft.com URL: https://translator.microsoft.com (Дата обращения: 01.11.2023).
4. Jurafsky.D, Martin. J.H. Speech and Language Processing
[Электронный ресурс] //web.stanford.edu - 03.02.2024 - URL: https://web.stanford.edu/~jurafsky/slp3/A.pdf (Дата обращения: 27.02.2024).
5. Yin, W., Kann, K., Yu, M., & Schutze, H. Comparative Study of CNN and RNN for Natural Language Processing [Электронный ресурс] //arxiv.org - 07.01.2024 - URL: https://arxiv.org/pdf/1702.01923 (Дата обращения: 22.11.2023).
6. Latif, S., Zaidi, A., Cuayahuitl, H., Shamshad, F., Shoukat, M., & Qadir, J. Transformers in Speech Processing: A Survey. [Электронный ресурс] // arxiv.org - 21.03.2023. - URL: https://arxiv.org/pdf/2303.11607 (Дата обращения: 30.09.2023).