Text to speech runtime что это за программа
Обзор мобильных Text-To-Speech движков
Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.
В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.
Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.
Коммерческие движки
SVOX Mobile TTS
Цена: n/a
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, BREW
Возможность разработки коммерческих продуктов: есть
Компания SVOX имеет наиболее «вкусный» с технической точки зрения продукт — SVOX Mobile TTS. Однако, поскольку компания работает в основном в B2B сегменте, на мои два письма с запросом цены они так и не ответили.
Acapela TTS
Цена: 2800€ плюс так называемая run-time license, за которую в самом лучшем случае придется платить по 49€ за каждое распространенное приложение
Языки: 23, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS
Возможность разработки коммерческих продуктов: есть
Сотрудники Acapela Group оказались намного более общительными и ответили буквально через полчаса после заполнения вот этой заявки.
Цена, указанная в шапке, относится к таким операционным системам как Windows Mobile и Symbian, однако бизнес-модель Acapela разнится в зависимости от выбранной ОС. К примеру, наиболее сильно они продвигают направление iOS, для которого сделан отдельный сайт. Там можно зарегистрироваться и бесплатно получить evaluation версию их движка. Цена голого SDK для бывшей iPhone OS составляет 250€. Так же с каждого проданного Вами в App Store приложения снимаются немалые проценты.
Отмечу, что Acapela предоставляет «облачный» синтез речи, а так-же портирование SDK под любую платформу.
Loquendo Embedded TTS
Цена: 3000€ плюс проценты с каждого проданного Вами мобильного приложения
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS, Maemo, Moblin, MeeGo, PalmOS
Возможность разработки коммерческих продуктов: есть
Движок Loquendo обладает специальными тегами, позволяющими делать речь более естественной, подмешивая такие не совсем «речевые» фишки как кашель, смех и прочее.
Их движок отвечает спецификации SSML 1.0 рекомендованной W3C.
Sakrament TTS
Цена: 1500€ для одной ОС, при покупке пакета сразу для двух языков предоставляется скидка в размере 25%, что составляет 2250€
Языки: английский, русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Symbian, Windows Mobile
Возможность разработки коммерческих продуктов: есть
Качества синтеза речи Sakrament TTS вполне достаточно, что бы озвучивать короткие фразы типа номеров телефонов или названий приложений. Описание всех версий SDK можно получить здесь.
Свободные движки
Flite
Цена: нет
Языки: английский плюс возможность компиляции языков FestVox
Субъективная оценка качества звучания: низкое
Мобильные ОС: Android, Windows CE/Windows Mobile, iOS, PalmOS
Возможность разработки коммерческих продуктов: есть (CMU licence)
В мире настольных систем хорошо известен синтезатор речи Festival. Он имеет порт под названием Flite для мобильных устройств и встраиваемых систем, который распространяется под их собственной X11-like лицензией, позволяющей свободно распространять данное ПО кому угодно, а так же строить на его основе как коммерческие, так и свободные приложения. Существуют порты для Windows CE/Windows Mobile, PalmOS, Android и iOS.
eSpeak
Цена: нет
Языки: 39, включая русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Android, Windows CE/Windows Mobile
Возможность разработки коммерческих продуктов: нет (GNU GPL)
Инструкция для компиляции движка под WM включена в дистрибутив, однако на этой платформе eSpeak имеет одно существенное ограничение – генерация голоса возможна только в WAV файл. Собранный TTS engine для Windows Mobile можно получить здесь.
eSpeak портирован на Android. Самый простой способ его попробовать — это установить из Android Market’а приложение TTS Service Extended, которое позволяет переключаться между встроенным движком и eSpeak. Данный TTS движок распространяется на условиях GNU GPL.
Встроенные решения
Встроенные решения присутствуют только в Symbian и Android. По какой-то неизвестной причине Microsoft лишила свою мобильную ОС соответствующего программного интерфейса (MS SAPI).
Symbian
Цена: нет
Языки: английский
Субъективная оценка качества звучания: крайне низкое
Возможность разработки коммерческих продуктов: есть
Встроенный TTS от Symbian Foundation скрывается в классе CMdaAudioPlayerUtility. Хотя в его документации ничего об этом не сказано, он все же позволяет синтезировать речь. К сожалению, русский язык не поддерживается. Качество генерации английской речи очень низкое. Без подготовки довольно трудно понять, что именно он произнес.
Дополнительные языковые пакеты можно загрузить здесь, однако список поддерживаемых телефонов крайне мал. Установка пакетов для русского языка на устройство под управлением Symbain OS S60 5th не дала ожидаемых результатов, встроенный TTS так и не заговорил по-русски.
Отмечу, что имеется достаточно удобное расширение API под названием NSS TTS Utility API, описание которого можно найти здесь.
Android
Цена: нет
Языки: английский, французский, немецкий, итальянский, испанский
Субъективная оценка качества звучания: среднее
Возможность разработки коммерческих продуктов: есть
Встроенная функциональность синтеза речи в Android доступна с версии 1.6. Прекрасное введение в тему можно найти в блоге разработчиков. Android TTS API является не чем иным, как оберткой над SVOX Pico, русский язык, которым, к сожалению, не поддерживается.
Заключение
Выводы каждому придется делать в зависимости от требований к разрабатываемому продукту. Для коммерческих решений крайне важно качество синтеза речи, поэтому выбирать стоит из двух движков – Acapela TTS и Loquendo Embedded TTS. При выборе движка для open source проекта крайне важную роль будет играть список целевых ОС.
Лично для себя я выбрал eSpeak, поскольку мой проект академического толка и я могу себе позволить использование продукта лицензированного по GNU GPL.
Программы text-to-speech для Windows
Если вы хотите озвучить письменный текст, скачайте любую из программ text-to-speech для Windows, которые вы найдете на нашем сайте
Программа чтения с экрана для слепых и слабовидящих людей
Воспроизводите ваши посты WordPress в формате аудио
Преобразовать любой текст в аудио в считанные секунды
Ваш компьютер будет говорить и петь все, что вы ему скажите
Исходный код для платформы, которая дает голос Стивен Хокинг
С легкостью расшифровывайте аудио
Превратите любой текст в звук
Практическое применение свободного преобразования текста в речь
Приложение, которое очень полезно для людей, которые страдают некоторые виды нарушения зрения
Конвертируйте любой текст в MP3 или WAV
Программа для чтения вслух текстовых файлов
Речевые технологии. Часть 1. Text-to-Speech: как работает синтез речи
Технологии распознавания и синтеза речи постоянно совершенствуются. Голосовые роботы уже берут на себя большую часть рутинных задач колл-центров, а ИИ способен не только понимать человеческую речь и распознавать эмоции, но и поддерживать разговор. Теперь в процессе общения по телефону отличить робота от человека бывает очень трудно. Все это делает жизнь людей проще, но речевые технологии созданы не для развлечения. Это инструмент бизнеса, который позволяет ему работать более эффективно.
Начнем погружение в речевые технологии с синтеза речи. Рассказываем, что такое технология Text-to-Speech и как она работает.
Что такое синтез речи
Синтез речи или Text-to-Speech (TTS) — технология преобразования текста в речь. Это компьютерное моделирование человеческой речи из текстового представления при помощи методов машинного обучения. Обычно синтез речи используют разработчики для создания голосовых роботов, например, IVR (интерактивный голосовой ответ).
Синтез речи экономит время и деньги бизнеса, так как генерирует звук автоматически и этим избавляет компанию от ручной записи (и перезаписи) аудиофайлов.
Благодаря синтезу речи можно прочитать любой текст голосом, максимально похожим на естественный. Чтобы сделать синтезированную речь натуральной, необходимо отточить ее тембр, плавность звучания, расстановку ударений и пауз, интонацию и другие области.
Для этого используются два подхода:
Как работает Text-to-Speech
Чтобы преобразовать текст в голос, система должна пройти три этапа: преобразовать текст в слова, выполнить фонетическую транскрибацию и преобразовать транскрибацию в речь.
1. Преобразовать текст в слова
Специальный алгоритм должен подготовить текст и преобразовать его в удобный формат для чтения. Проблема в том, что исходный текст помимо слов содержит числа, сокращения, даты и пр. Такие компоненты необходимо расшифровать и записать словами. Затем алгоритм разделяет текст на отдельные фразы, которые потом система прочитает с подходящей интонацией. Для этого при создании фраз робот ориентируется на пунктуацию и устойчивые конструкции в тексте.
2. Выполнить фонетическую транскрибацию
После того, как алгоритм разбил текст на фразы, ему необходимо выполнить фонетическую транскрибацию. Каждое предложение можно произносить по-разному в зависимости от смысла и эмоциональной окраски текста. Более того, даже одно слово может читаться разными способами. Чтобы понять, как произносится каждое слово и где именно ставить ударение, система использует встроенные словари. Если необходимое слово в них отсутствует, компьютер строит транскрибацию самостоятельно, используя академические правила. Если это тоже не помогает, то алгоритм опирается на записи дикторов и определяет, на каких частях слов они делали акценты.
Затем система рассчитывает, сколько в составленной транскрибации фрагментов длиной 25 миллисекунд. Каждый фрагмент она описывает различными параметрами: частью какой фонемы он является, какое место в ней занимает, в какой слог входит эта фонема и др. После этого система воссоздает подходящую интонацию с помощью данных о фразах и предложениях.
Фонема — минимальная единица звукового строя языка.
Преобразовать транскрибацию в речь
Чтобы прочитать подготовленный текст, система использует акустическую модель. Она устанавливает связь между фонемами и звуками, придавая им верную интонацию благодаря машинному обучению. Чтобы что-то сказать, робот использует генератор звуковых волн, в который загружаются все данные о частотных характеристиках фраз, полученные от акустической модели.
Как синтез речи используется в бизнесе
Синтез речи можно применять в следующих областях:
Например, компания KFC настроила автоматическую верификацию заявок HR с помощью Voximplant. HR-департамент KFC загружает в свою CRM-систему список телефонных номеров кандидатов и текст вакансии. Voximplant делает несколько попыток дозвона. После успешного соединения робот спрашивает, интересно ли получить информацию о работе (синтез речи). Если кандидат ответил утвердительно (распознавание речи), робот рассказывает о вакансии и ставит в очередь к сотруднику колл-центра. До начала разговора сотрудник KFC получает информацию о соискателе в текстовом виде.
Например, компания «КЛЮЧАВТО» с помощью Voximplant настроила автоматизированный сбор обратной связи клиентов по итогам покупки автомобиля и прохождения ТО. Робот приветствует клиента по имени и просит оценить ряд критериев по шкале от 1 до 10. Развернутые ответы транскрибируются и сохраняются в текстовом виде.
Решение от Voximplant
Voximplant предоставляет API, позволяющий легко интегрировать функциональность TTS в свое приложение или веб-сайт. Компании используют TTS для обработки входящих и исходящих вызовов, а также для управления голосовыми уведомлениями, при этом не требуется никакого оборудования или сложного программирования.
Voximplant поддерживает TTS на базе таких сервисов, как Amazon Polly, Google WaveNet, Dialogflow, IBM Watson, Яндекс SpeechKit, Tinkoff VoiceKit и Microsoft Azure. WaveNet также используется онлайн-сервисами Google: Google Assistant, Google Search и Google Translate. WaveNet генерирует необработанные аудиосигналы с помощью нейронной сети, обученной на большом количестве речевых образцов. Вся необходимая информация для генерации речи хранится в параметрах модели, а тон голоса можно контролировать с помощью настроек модели.
Особенности решения от Voximplant:
Бизнесу из любой сферы интересен ИИ, который может не просто озвучивать текстовые фрагменты, но и синтезировать их. Все это осуществимо благодаря машинному обучению. Но система синтеза речи должна также уметь подбирать интонацию, правильно расставлять ударения и паузы, различать слова-омографы (например, «замОк» и «зАмок»). Это непростая задача, поэтому для создания полноценной системы синтеза речи помимо компьютера может потребоваться большая команда специалистов.
Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet
Последние достижения в области глубокого обучения привносят существенные улучшения в развитие систем синтеза речи (далее – TTS). Это происходит благодаря применению более эффективных и быстрых методов изучения голоса и стиля говорящих, а также благодаря синтезу более естественной и качественной речи.
Однако, чтобы этого достичь, большинство систем TTS должны использовать большие и сложные модели нейронных сетей, которые трудно обучить и которые не позволяют синтезировать речь в реальном времени, даже при помощи графических процессоров.
Чтобы решить эти проблемы, наша команда IBM Research AI разработала новый метод нейросетевого синтеза, основанный на модульной архитектуре. Данный метод объединяет три глубокие нейронные сети (deep neural network, далее – DNN) с промежуточной обработкой их выходных сигналов. Мы представили эту работу в нашей статье «Высококачественная, легковесная и адаптируемая TTS технология с использованием LPCNet» на Interspeech 2019. Архитектура TTS легка и может синтезировать высококачественную речь в режиме реального времени. Каждая сеть специализируется на различных аспектах голоса говорящего, что позволяет эффективно обучать любой из компонентов независимо от других.
Схема 1. Системная архитектура TTS
Другое преимущество нашего подхода заключается в том, что после обучения базовых сетей их можно легко адаптировать к новому стилю речи или голосу даже на небольших объемах обучающих данных, например, в целях брендинга и кастомизации.
В процессе синтеза используется интерфейсный модуль для конкретного языка, который преобразует входной текст в последовательность лингвистических признаков. Затем применяются следующие DNN одна за другой:
1. Предсказание просодии
Просодические признаки речи представлены в виде четырехмерного вектора на единицу TTS (примерно одна треть состояний звука по СММ (скрытая марковская модель)), включающего в себя log-duration, начальный и конечный log-pitch, а также log-energy. Эти признаки определяются в процессе обучения, поэтому их можно предсказать по особенностям текста, полученного интерфейсом во время синтеза. Просодия чрезвычайно важна не только для того, чтобы речь звучала естественно и живо, но и для того, чтобы в данных, предназначенных для обучения или адаптации, имелось наиболее полное отражение стиля речи говорящего. Адаптация просодии к голосу диктора основана на вариационном автоэнкодере (Variational Auto Encoder, VAE).
Схема 2. Обучение и переобучение генератора просодии
2. Прогнозирование акустических признаков
Векторы акустических признаков обеспечивают спектральное представление речи в коротких 10-миллисекундных кадрах, из которых может быть сгенерирован фактический звук. Акустические особенности определяются в процессе обучения, и их можно предсказать по фонетическим меткам и просодии во время синтеза.
Схема 3. Сеть-синтезатор
Созданная модель DNN представляет собой аудиоданные (голос диктора), необходимые для обучения или адаптации. Архитектура модели состоит из сверточных и рекуррентных слоев, предназначенных для извлечения локального контекста и временных зависимостей в последовательности звуков и структуре тона. DNN предсказывает акустические признаки по их первой и второй производной. Затем следует метод максимального правдоподобия и применяются формантные фильтры, которые помогают генерировать речь лучшего звучания.
3. Нейронный вокодер
Нейронный вокодер отвечает за генерацию речи из акустических признаков. Он обучается на образцах естественной речи говорящего, учитывая их соответствующие особенности. Технически мы были первыми, кто использовал новый, легкий, высококачественный нейронный вокодер под названием LPCNet в полностью коммерциализированной системе TTS.
Новизна этого вокодера заключается в том, что он не пытается предсказать сложный речевой сигнал непосредственно с помощью DNN. Вместо этого DNN только прогнозирует менее сложный остаточный сигнал голосового тракта, а затем использует фильтры LPC (Linear Predictive Coding) для преобразования его в окончательный речевой сигнал.
Схема 4. Нейронный вокодер LPCNet
Голосовая адаптация
Адаптация к голосу легко достигается путем переобучения трех сетей на основе небольшого количества аудиоданных целевого диктора. В нашей статье мы представляем результаты адаптационных экспериментов с точки зрения качества речи и ее сходства с истинной речью диктора. На этой странице также приведены примеры адаптации к восьми различным дикторам VCTK (Voice Cloning Toolkit), из которых 4 являются мужчинами и 4 – женщинами.
Результаты прослушивания
На рисунке ниже представлены результаты тестов прослушивания синтезированных и естественных образцов речи дикторов VCTK. Значения средней экспертной оценки (Mean Opinion Score, MOS) основываются на анализе слушателями качества речи по шкале от 1 до 5. Сходство между парами образцов оценено слушателями по шкале от 1 до 4.
Мы измерили качество синтезированной речи, а также ее сходство с речью «живых» дикторов, сравнив женские и мужские адаптированные голоса длительностью 5, 10 и 20 минут с естественной речью дикторов.
Результаты испытаний показывают, что мы можем поддерживать как высокое качество, так и высокое сходство с оригиналом даже для голосов, которые были обучены на пятиминутных примерах.
Схема 5. Результаты тестов на качество и сходство
Эта работа была проведена IBM Watson и послужила основой для нового выпуска сервиса IBM Watson TTS с улучшенным качеством голоса (см. голоса «*V3» в демонстрационной версии IBM Watson TTS).
Как озвучить любой текст: онлайн-сервисы и программы
Синтезаторы речи способны превратить любой электронный документ в поток звука, который можно прослушать один раз или сохранить на устройстве как аудиофайл. Озвучка текста голосом нашла применение во многих сферах жизни человека, а для людей с ослабленным зрением и нарушением речевой функции она просто жизненно необходима.
Что такое синтезаторы речи
Синтезатор речи — это программное обеспечение, которое превращает текст в голос. Процесс преобразования проходит в несколько этапов:
Синтезаторы речи поддерживают разные языки, что позволяет их использовать в том числе для переводов. С их помощью можно научиться правильно произносить слова на иностранных языках, создавать аудиокниги, озвучивать видеоролики, презентации, документы, а также просто воспроизводить вслух любые тексты на родном языке, если есть проблемы с речью или зрением.
Работа синтезатора занимает доли секунды — стоит только набрать текст, как робот готов прочитать его вслух.
Синтезаторы превращают массивы текста в аудиопоток, воспроизведением которого можно управлять: ставить на паузу, перематывать, менять громкость и скорость чтения.
Популярные голосовые движки
Звучание голоса в синтезаторе речи зависит от того, какой в нем используется движок. Например, в русских версиях Windows установлен “электронный диктор” Microsoft Irina. Если в синтезаторе речи нет другого движка, то по умолчанию будет говорить именно она. При этом выбор голосов на самом деле очень богатый. Среди популярных русских движков можно выделить:
Движки отличаются тембром голоса, эмоциональной окраской, количеством встроенных словарей, которые определяют правильность речи. Например, Николай читает текст практически без эмоций, поэтому с ним сложно воспринимать художественные тексты, а Ольга и Дмитрий от Loquendo, наоборот, используют разные стили речи. Все перечисленные движки работают по стандарту SAPI 5, который применяется на Windows, начиная с версии XP.
Большинство движков представлены в двух вариантах — мужской и женский голос. Детских голосов мало. Даже на сайте Acapela Group, одного из лидеров индустрии, меньше 10 языков, для которых доступны голоса детей.
Как сказано выше, голосовые движки облегчают процесс изучения иностранных языков. Например, Lernout&Hauspie предлагает для этого бесплатные голоса с американским и британским акцентами английского,а также голландским, испанским, итальянским и другим произношением. Большое количество движков разработала компания Cepstral. У них также есть бесплатная версия электронного диктора, однако при ее использовании постоянно появляется окно с предложением перейти на платный тариф.
Несмотря на то, что голосовые движки становятся всё более технологичными, добиться 100% совпадения с живой человеческой речью не удалось пока никому. Вам достаточно услышать несколько предложений, чтобы понять, что говорит робот. При изучении иностранных слов не стоит полагаться только на произношение программ — они нередко ошибаются. Но если ваша задача — простое озвучивание информации на русском, то можно использовать любой движок, в базе которого есть этот язык.
Чтобы добавить голосовой движок в Windows, достаточно его скачать и установить как обычную программу. После этого он появится в списке доступных. Но для использования голосов необходима сторонняя программа или веб-сервис, так как сами движки не имеют графического интерфейса.
Программы для озвучки текста
Если вам нужно постоянно озвучивать большие объемы текста из электронных документов, то самый удобный вариант — установить специальные приложения, которые умеют работать с файлами разного формата.
Балаболка
Балаболка — бесплатная программа озвучки для Windows от российских разработчиков. Она поддерживает работу с любыми голосовыми движками, установленными в системе. В ее интерфейсе есть стандартные инструменты для управления воспроизведением: пауза, остановка, перемотка, изменение скорости и громкости.
«Балаболка» умеет читать вслух текст из буфера обмена, произносить набираемые на клавиатуре фразы, озвучивать содержимое редактора или загруженных в нее файлов в форматах AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, WPD, XLS, XLSX.
Результат обработки «Балаболка» сохраняет как аудиофайл в форматах WAV, MP3, MP4, OGG и WMA. У нее также есть возможность сохранения текста внутри файлов MP3 для дальнейшего отображения в виде субтитров в медиапроигрывателе.
Govorilka
Govorilka — ещё одна программа для озвучки с минималистичным интерфейсом. Поддерживает голосовые движки устаревшего стандарта SAPI 4, в том числе на иностранных языках.
По умолчанию Govorilka озвучивает текст голосом стандартного движка Microsoft. В ее составе есть инструменты управления, традиционные для программ такого типа: воспроизведение, пауза, остановка, изменение скорости, громкости и высоты голоса. Одновременно в ней можно открыть до 8 вкладок с разными фрагментами текста.
Несмотря на простоту и устаревший интерфейс, «Говорилка» всё еще актуальна. Она умеет распознавать текстовые документы в разных форматах объёмом до 2 Гб и сохранять результат обработки в MP3 и WAV.
eSpeak
eSpeak — бесплатная программа для озвучки текста, доступная на Windows, macOS, Linux и Android. Она использует голосовые движки, установленные в системе, а также добавляет к ним несколько своих.
Версия этого приложения для Windows имеет максимально простой интерфейс и управление. Текст, который нужно прочитать, достаточно вставить в поле посредине окна, а затем нажать “Speak”.
Максимальный размер текста здесь явно не определен, но приложение справляется с большими объёмами. Также у него есть возможность читать тексты из файлов с расширением TXT, другие форматы не поддерживаются.
В мобильной версии приложения для Android аналогичная функциональность, разве что нет возможности сохранить текст в аудио.
Acapela TTS
Acapela Group разрабатывает программы для всех популярных операционных систем: Windows, macOS, Linux. Android, iOS. Среди главных достоинств этого софта — поддержка большого количества языков и отличное качество голоса. Мощные движки хорошо обучены и имеют развёрнутую справочную базу, которая позволяет им говорить правильно и выразительно.
Однако все продукты Acapela коммерческие. Установить приложение на компьютер или телефон можно бесплатно, но без купленного голосового движка в них нет никакого смысла. Стоимость одного пакета — 3,99 евро. Прежде чем оплачивать покупку, вы можете прослушать демо голоса с произвольным текстом, чтобы определить, подходит ли вам такое звучание.
ICE Book Reader Professional
Программа умеет превращать книги в MP3/WAV-файлы. Это значит, что вы можете из любого произведения, доступного в текстовом формате, сделать аудиокнигу.
Скорость преобразования текста в голос в этом приложении увеличивается за счёт одновременного использования нескольких модулей синтеза речи.
Веб-сервисы и расширения для озвучки текста
Для озвучивания небольших фрагментов текста можно обойтись без специальных программ. Веб-сервисы и расширения для браузеров тоже имеют неплохие инструменты синтеза речи с приятными на слух голосами.
Google Переводчик
В составе веб-версии переводчика от Google есть встроенный синтезатор речи, который поддерживает большое количество языков.
Как им пользоваться:
Google Переводчик удобен для изучения иностранных языков. Идеального произношения от него ждать не стоит, но, например, англоязычный голосовой движок даёт неплохое представление о том, как должна звучать английская речь. Русский голос кажется слишком медленным, но читает чисто и без ошибок при расставлении ударений.
Главное достоинство сервиса — моментальное воспроизведение звука. Недостатки тоже есть: например, лимит на размер текста — не более 5000 символов. Кроме того, сервис не имеет настроек голоса — нельзя изменить ни тембр, ни скорость чтения.
From-Text-To-Speech
From-Text-To-Speech позволяет воспроизвести до 50 000 символов за один подход. Принцип его работы аналогичен гугловскому переводчику: вы вставляете в окно фрагмент текста и выбираете язык.
Однако в отличие от Google Translate, на From-Text-To-Speech есть две важные настройки: скорость воспроизведения и голосовой движок. Правда, выбор всё равно небольшой. Скорость чтения здесь устанавливается пресетами Slow (медленно), Medium (средне), Fast (быстро) и Very Fast (очень быстро), а изменение голосового движка доступно не на всех языках — например, на русском можно слушать только Валентину, а на португальском — Rodrigo.
Чтобы обработать текст в From-Text-To-Speech, вставьте его в окно и нажмите на кнопку Create Audio File. Продолжительность операции зависит от размера фрагмента. После обработки откроется страница со ссылкой на скачивание аудиофайла. Также можете прослушать текст онлайн, используя встроенный проигрыватель.
From-Text-To-Speech умеет озвучивать только 8 языков. Но если вам нужно прослушать большой фрагмент текста на русском или английском, то этот сервис будет полезнее, чем Google Переводчик.
Zvukogram
Сервис для озвучки текста в речь Zvukogram — это агрегатор нейросетей генерации голоса. Доступно 9 женских и 6 мужских голосов для озвучки.
По функционалу с голосом вы можете сделать:
Вы можете загрузить текст любой длины и озвучить его. По окончании озвучки файл можно увидеть в виде волны, прослушать его, сохранить ссылку и скачать в mp3, wav, ogg форматах.
Помимо русского доступны английский, немецкий, итальянский, испанский и турецкий языки.
Звукограмом озвучивают ютуб-каналы, новости в телеграм-каналах, анекдоты, сказки, презентации, голосовые сообщения, аудиокниги и многое другое.
Text-to-Speech
Text-to-Speech предлагает озвучить фрагмент текста до 1000 символов на одном из поддерживаемых языков: русском, английском, итальянском, корейском — всего 23 варианта с учётом гендерной принадлежности голоса. Кроме выбора языка в нем доступно изменение скорости чтения. К сожалению, качество русскоязычного голосового движка оставляет желать лучшего — интонацию трудно воспринимать, часто встречаются ошибки в ударениях.
Обработка текста в Text-to-Speech занимает несколько секунд, после чего на экране появляется аудиопроигрыватель. Отдельной ссылки для скачивания аудио он не формирует, но вы можете кликнуть по проигрывателю правой кнопкой мыши и выбрать опцию «Сохранить аудио как», после чего загрузить озвучку на жёсткий диск.
Oddcast
Oddcast позволяет озвучить текстовые фрагменты на 29 языках разными голосами. На русском здесь есть сразу 3 движка, другие онлайн-сервисы такого выбора не дают. Кроме того, у пользователя Oddcast есть возможность выбрать эффект звучания, например, добавить эхо.
Скорость чтения в этом сервисе также настраивается с помощью пресетов — от очень медленной до очень быстрой. Текст озвучивает 3D-модель женщины или мужчины в зависимости от выбранного пола электронного диктора.
Главный недостаток Oddcast — ограничение текста до 600 символов в демо-версии. Есть вопросы и к качеству голосовых движков: иногда они пропускают неправильные ударения, а числительные и вовсе не склоняются.
Яндекс.Переводчик
Сервис для перевода от Яндекса тоже поддерживает озвучку текста. Однако эта возможность доступна только для десятка наиболее распространённых языков, среди которых русский, украинский, польский, английский, немецкий, итальянский, испанский, французский, корейский, китайский и японский. Кроме того, он позволяет озвучить не более 300 символов, при превышении этого лимита значок воспроизведения становится неактивным.
Acapela
На сайте компании Acapela Group, которая также занимается разработкой голосовых движков, есть раздел с демо-версиями. Здесь можно озвучить всего до 150 символов.
Acapela подкупает огромным выбором поддерживаемых языков и разными вариантами голосов. На русском можно послушать только Алёну, но если вы изучаете английский, французский или немецкий, то получите десяток версий звучания.
Расширения для браузеров
Для озвучки текста прямо со страницы любого сайта удобнее использовать браузерные расширения. Например, в Google Chrome и других обозревателях на основе Chromium доступен плагин Reader View. Он переводит страницу в режим чтения, в где также есть функция преобразования текста в аудио.
Воспроизведение начнётся автоматически. Вы можете выбрать язык, голосовой движок, громкость и скорость чтения.
На Mozilla Firefox и вовсе не нужно устанавливать расширения — их функциональность поддерживается браузером по умолчанию. Чтобы запустить встроенный синтезатор речи:
У функции Reader View есть ограничения — она работает только на страницах, которые поддерживают режим чтения. Если это не так, то в адресной строке Mozilla Firefox просто не появится соответствующий значок. В таком случае у вас остаётся только вариант с использованием других программ или веб-сервисов для озвучки текста.