Text to speech runtime что это

Обзор мобильных Text-To-Speech движков

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что этоЕсли Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.

В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.

Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.

Коммерческие движки

SVOX Mobile TTS

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: n/a
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, BREW
Возможность разработки коммерческих продуктов: есть

Компания SVOX имеет наиболее «вкусный» с технической точки зрения продукт — SVOX Mobile TTS. Однако, поскольку компания работает в основном в B2B сегменте, на мои два письма с запросом цены они так и не ответили.

Acapela TTS

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: 2800€ плюс так называемая run-time license, за которую в самом лучшем случае придется платить по 49€ за каждое распространенное приложение
Языки: 23, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS
Возможность разработки коммерческих продуктов: есть

Сотрудники Acapela Group оказались намного более общительными и ответили буквально через полчаса после заполнения вот этой заявки.

Цена, указанная в шапке, относится к таким операционным системам как Windows Mobile и Symbian, однако бизнес-модель Acapela разнится в зависимости от выбранной ОС. К примеру, наиболее сильно они продвигают направление iOS, для которого сделан отдельный сайт. Там можно зарегистрироваться и бесплатно получить evaluation версию их движка. Цена голого SDK для бывшей iPhone OS составляет 250€. Так же с каждого проданного Вами в App Store приложения снимаются немалые проценты.

Отмечу, что Acapela предоставляет «облачный» синтез речи, а так-же портирование SDK под любую платформу.

Loquendo Embedded TTS

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: 3000€ плюс проценты с каждого проданного Вами мобильного приложения
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS, Maemo, Moblin, MeeGo, PalmOS
Возможность разработки коммерческих продуктов: есть

Движок Loquendo обладает специальными тегами, позволяющими делать речь более естественной, подмешивая такие не совсем «речевые» фишки как кашель, смех и прочее.

Их движок отвечает спецификации SSML 1.0 рекомендованной W3C.

Sakrament TTS

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: 1500€ для одной ОС, при покупке пакета сразу для двух языков предоставляется скидка в размере 25%, что составляет 2250€
Языки: английский, русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Symbian, Windows Mobile
Возможность разработки коммерческих продуктов: есть

Качества синтеза речи Sakrament TTS вполне достаточно, что бы озвучивать короткие фразы типа номеров телефонов или названий приложений. Описание всех версий SDK можно получить здесь.

Свободные движки

Flite

Цена: нет
Языки: английский плюс возможность компиляции языков FestVox
Субъективная оценка качества звучания: низкое
Мобильные ОС: Android, Windows CE/Windows Mobile, iOS, PalmOS
Возможность разработки коммерческих продуктов: есть (CMU licence)

В мире настольных систем хорошо известен синтезатор речи Festival. Он имеет порт под названием Flite для мобильных устройств и встраиваемых систем, который распространяется под их собственной X11-like лицензией, позволяющей свободно распространять данное ПО кому угодно, а так же строить на его основе как коммерческие, так и свободные приложения. Существуют порты для Windows CE/Windows Mobile, PalmOS, Android и iOS.

eSpeak

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: нет
Языки: 39, включая русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Android, Windows CE/Windows Mobile
Возможность разработки коммерческих продуктов: нет (GNU GPL)

Инструкция для компиляции движка под WM включена в дистрибутив, однако на этой платформе eSpeak имеет одно существенное ограничение – генерация голоса возможна только в WAV файл. Собранный TTS engine для Windows Mobile можно получить здесь.

eSpeak портирован на Android. Самый простой способ его попробовать — это установить из Android Market’а приложение TTS Service Extended, которое позволяет переключаться между встроенным движком и eSpeak. Данный TTS движок распространяется на условиях GNU GPL.

Встроенные решения

Встроенные решения присутствуют только в Symbian и Android. По какой-то неизвестной причине Microsoft лишила свою мобильную ОС соответствующего программного интерфейса (MS SAPI).

Symbian

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: нет
Языки: английский
Субъективная оценка качества звучания: крайне низкое
Возможность разработки коммерческих продуктов: есть

Встроенный TTS от Symbian Foundation скрывается в классе CMdaAudioPlayerUtility. Хотя в его документации ничего об этом не сказано, он все же позволяет синтезировать речь. К сожалению, русский язык не поддерживается. Качество генерации английской речи очень низкое. Без подготовки довольно трудно понять, что именно он произнес.

Дополнительные языковые пакеты можно загрузить здесь, однако список поддерживаемых телефонов крайне мал. Установка пакетов для русского языка на устройство под управлением Symbain OS S60 5th не дала ожидаемых результатов, встроенный TTS так и не заговорил по-русски.

Отмечу, что имеется достаточно удобное расширение API под названием NSS TTS Utility API, описание которого можно найти здесь.

Android

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это
Цена: нет
Языки: английский, французский, немецкий, итальянский, испанский
Субъективная оценка качества звучания: среднее
Возможность разработки коммерческих продуктов: есть

Встроенная функциональность синтеза речи в Android доступна с версии 1.6. Прекрасное введение в тему можно найти в блоге разработчиков. Android TTS API является не чем иным, как оберткой над SVOX Pico, русский язык, которым, к сожалению, не поддерживается.

Заключение

Выводы каждому придется делать в зависимости от требований к разрабатываемому продукту. Для коммерческих решений крайне важно качество синтеза речи, поэтому выбирать стоит из двух движков – Acapela TTS и Loquendo Embedded TTS. При выборе движка для open source проекта крайне важную роль будет играть список целевых ОС.

Лично для себя я выбрал eSpeak, поскольку мой проект академического толка и я могу себе позволить использование продукта лицензированного по GNU GPL.

Источник

Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Вокруг темы синтеза речи сейчас много движения: на рынке есть огромное число тулкитов для синтеза, большое число закрытых коммерческих решений за АПИ (как на современных технологиях, так и на более старых, т.е. «говорилки») от условных GAFA компаний, большое количество американских стартапов, пытающихся сделать очередные аудио дипфейки (voice transfer).

Но мы не видели открытых решений, которые бы удовлетворяли одновременно следующим критериям:

Мы попытались учесть все эти пункты и представить комьюнити свое открытое некоммерческое решение, удовлетворяющее этим критериям. По причине его публичности мы не заостряем внимание на архитектуре и не фокусируемся на каких-то cherry picked примерах — вы можете оценить все сами, пройдя по ссылке.

Краткий Обзор Решений

Данная статья не ставит своей целью глубокий технический обзор всех доступных решений. Мы хотим просто обрисовать некий ландшафт из доступных вариантов с минимальной степенью готовности. Понятно, что мы не рассматриваем многочисленные тулкиты, а смотрим в первую очередь какие есть более-менее готовые решения с ненулевой библиотекой голосов и подобием поддержки / комьюнити:

Конкатенативные модели (появившиеся до DL бума). Из того, что хоть как-то поддерживается и живо и можно запустить «as-is» без археологических раскопок, я нашел только rhvoice (я глубоко не копал, но есть целые форумы, посвященные использованию голосов из Windows, но вряд ли это можно назвать поддерживаемым решением). На момент, когда я пользовался проектом ради интереса, он по сути был заброшен, но потом у него появился новый «хозяин». К плюсам такого рода решений можно отнести их скорость и нетребовательность к ресурсам (исключая ресурсы, чтобы заставить это работать). Очевидный и основной минус — звучит как говорилка. Менее очевидный минус — довольно тяжело оценить стоимость обладания. Качество звучания: 3+ по пятибалльной шкале;

Tacotron2 + WaveNet (оригинальный WaveNet принимал на вход лингвофичи, но для такотрона поменяли на более удобные мелспектрограммы). Основная проблема — очень медленный инференс ввиду авторегрессионности модели и необходимость запретительно большого количества ресурсов и времени. Качество звучания: 4+;

Tacotron2 + WaveRNN (тоже с переходом от лингвофичей к спектрограммам). Вокодер заметно быстрее предыдущего: при использовании всех хаков можно получить даже риалтайм синтез без GPU, правда естественность звука несколько просядет. Качество звучания: 3.5-4;

Tacotron2 + Parallel WaveNet. Упомянутый выше медленный вокодер был использован в качестве учителя для получения новой довольно быстрой параллельной модели вокодера: с ней стал возможен синтез быстрее риалтайма, но все еще на мощных GPU. Из недостатков — дистилляция требует качественную учительскую модель и соответствующую схему обучения. Качество звучания: 4+;

Tacotron2 + multi-band WaveRNN. Тоже развитие предыдущих идей, тоже распараллеливание в некотором смысле — здесь доступен синтез быстрее риалтайма уже на CPU. Однако, не слишком популярная работа, меньше имплементаций и поддержки, хотя некоторые подходы хороши и были успешно использованы в более поздних моделях; Качество звучания: 3.5-4+;

Tacotron2 + LPCNet. Интересная идея про сочетание DL и классических алгоритмов, что может дать буст по скорости до подходящего для продакшена уровня и на CPU, но требует вдумчивого допиливания для качественных результатов. Качество звучания: 3.5-4+;

Многочисленные решения на базе Tacotron2 + Waveglow от Nvidia как нынешний стандарт для задачи синтеза речи. Никто не пишет про свой «секретный соус» (например как 15.ai делает голос по 15 минутам и сколько там моделей в цепочке). Есть много имплементаций и репозиториев, которые «копируют» чужой код. Может звучать на cherry-picked примерах неотличимо от живых людей, но когда смотришь реальные модели от комьюнити, качество заметно варьируется, а детали улучшенных решений не раскрываются. Архитектурно к такотрону и его аналогам по скорости и цене обладания претензий нет, но Waveglow очень прожорлив к ресурсам как на тренировке, так и в продакшене, что делает его использование по сути нецелесообразным. Качество звучания: 3.5-4+;

Замена Tacotron2 => FastSpeech / FastSpeech 2 / FastPitch, то есть уход к более простой сетке (на базе forced-align от такотрона и миллион более хитрых и сложных вариантов). Из полезного дает контроль темпа речи и высоты голоса, что неплохо, вообще упрощает и делает более модульной конечную архитектуру. Немаловажно, что сетка перестает быть рекуррентной, что открывает просторы для оптимизаций по скорости. Качество звучания: 3.5-4+;

Оценки Качества и Примеры Аудио

Чтобы не вдаваться в дебри, мы поступили максимально просто: синтезировали аудио из валидационной выборки датасетов (

200 файлов на спикера), смешали с оригинальными аудио этой же выборки и дали группе из 24 людей для оценки качества звучания по пятибалльной шкале. Для 8kHz и 16kHz оценки собирали раздельно, градация оценок — [1, 2, 3, 4-, 4, 4+, 5-, 5] — с большей детализацией для более качественного звука.

Всего было поставлено 37,403 оценок. 12 человек сделали оценку полностью. Еще 12 людей успели проставить только от 10% до 75% оценок. Дальше для каждого спикера мы просто посчитали среднее (в скобочках приведено стандартное отклонение). Расчет среднего от медиан по каждому аудио завышает средние оценки на 0.1 — 0.2 балла, но не влияет на отношения. Показательны естественно скорее отношения средних баллов друг к другу. Дисперсия довольно высокая, но оценки пользователей отличались сильно и мы решили не выбрасывать никакие, т.к. оценки одного пользователя были консистентными друг с другом. По ряду соображений мы провели такую оценку только на своих уникальных голосах:

СпикерОригиналСинтезОтношениеПримеры
aidar_8khz4.67 (.45)4.52 (.55)96.8%link
baya_8khz4.52 (.57)4.25 (.76)94.0%link
kseniya_8khz4.80 (.40)4.54 (.60)94.5%link
aidar_16khz4.72 (.43)4.53 (.55)95.9%link
baya_16khz4.59 (.55)4.18 (.76)91.1%link
kseniya_16khz4.84 (.37)4.54 (.59)93.9%link

Мы просили людей в первую очередь оценивать естественность звучания речи (а не качество звука). Нас удивило, что по расспросам обычные люди на своих ежедневных девайсах не особо слышат разницу между 8 kHz и 16 kHz (что подтверждается оценками)! Самые низкие абсолютные оценки и самое низкое отношение у Байи. Самые высокие абсолютные оценки — у Ксении, а относительные — у Айдара. Тут важно отметить, что у Байи меньше поставлен голос, но поэтому он звучит более по-человечески за счет этого. У Байи также выше дисперсия оценок.

Ручной просмотр аудио с большими расхождениями показывает ошибки спикеров, ошибки такотрона, ошибочные паузы (тоже вследствие ошибок такотрона), имена собственные и сложные слова, которые вообще непонятно как читать. Естественно 75% таких расхождений в синтезе (а не оригинале) и частота дискретизации особо не влияет.

Если мы пытались дать численную оценку естественности, то еще хорошо бы оценить «неестественность» или «роботизированность» голоса. По идее ее можно оценивать, давая людям пару аудио на выбор и прося выбрать между ними. Но мы пошли дальше и по сути применили «двойной слепой тест». Мы в случайном порядке дали людям поставить оценки «одному и тому же аудио» 4 раза — оригинал и синтез с разной частотой дискретизации. Для участников исследования, разметивших весь датасет, получается такая таблица:

СравнениеХужеОдинаковоЛучше
16k против 8k, оригинал95748111512
16k против 8k, синтез166840611551
Оригинал против синтеза, 8k81636972767
Оригинал против синтеза, 16k67434623144

Тут напрашивается несколько выводов:

Можете оценить сами, как это звучит, как для наших уникальных голосов, так и для спикеров из внешних источников (больше аудио для каждого спикера можно синтезировать в colab.

Если вы не дружите с колабом или глаза разбегаются от количества файлов в папках с примерами, то вот несколько случайных аудио:

Источник

Text-to-Speech для YouTube. Озвучивание субтитров в видеороликах на JS

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Изучая новое, или когда просто смотрим YouTube, иногда попадаются ролики, очень важные, но на другом языке, с одной стороны можно включить субтитры, выбрав перевод на родной язык, но бывает, сложно одновременно читать и смотреть на то, что происходит на мониторе.

В целом, технология Text-to-Speech достаточно известна, много чего на ней написано, распознавание речи и все такое. Большое внимание заострять не буду, вы и сами почитаете, если будет нужно. Для JavaScript почитать можно тут Web Speech API, послушать здесь Speech synthesiser.

Скажу только, что у Google есть множество разных голосов, но почти все они часть платного API, а базовый функционал, браузерного синтезатора речи, предоставляет по 1 голосу на язык (для английского доступно 3 голоса: en-US, en-GB Male, en-GB Female).

Microsoft предоставляет 2 голоса на язык, в рамках языковых пакетов для Windows (10). Новые голоса добавляются в «Параметры->Время и язык->Распознавание голоса». Может у них есть и больше голосов, но установив все доступные мне языковые пакеты, получилось так:

Список доступных голосов win 10

Доступные голоса для Windows 10 Chrome

Code

Microsoft

Google

Google UK English Female

Google UK English Male

Google español de Estados Unidos

Google Bahasa Indonesia

Google português do Brasil

Работает оно в Chromium браузерах (Chrome, Яндекс, Atom )

YouTube

Попробовав несколько таких же расширений, а их в магазине Chrome, штук 5 точно есть, решил написать еще одно, мне показалось, что функционала в них недостаточно и хотелось немного исправить положение дел.

Забегая вперед, хочу сказать, что, одна из ключевых проблем, связанных с озвучиванием субтитров на YouTube, заключается в том, что, технология на данный момент реализована не полностью, и нет возможности задать время произношения текста.

Т.е. можно регулировать скорость произношения (быстро, медленно, нормально), но указать время для указанного текста (12 слов за 2 секунды) через API, пока что нет возможности. Там есть определенный формат SSML, но он еще не поддерживался, когда я его тестировал (лето 2021).

В конце концов, решить проблему кое как удалось, но не очень оптимально.

SpeechSynthesis API

Как все мы знаем, за синтез речи в браузере Chrome отвечает SpeechSynthesis.

В целом, все, достаточно просто, и на этом можно создавать функционал, позволяющий общаться с посетителями презентаций, выставок, сайтов, программ и т.д.

Один из нюансов, связанных с голосами, таков, что у голосов от Google есть ограничение на время произношения, примерно 1-2 минуты, после чего синтезатор замолкает. Продолжить речь можно через паузу, программно нажать и тут же снять с паузы window.speechSynthesis.pause(); window.speechSynthesis.resume(); и речь продолжится. Но если есть очередь воспроизведения. Может быть так только в бесплатном API, платный проверить не доводилось.

У Microsoft таких ограничений нет. Чтобы проверить ограничения на максимальную длину текста и время работы для синтезатора речи, с голосом от Microsoft, как-то почти 2 часа сидел и слушал какой-то рыба-текст, продублированный для увеличения длины. надоело, выключил. Около 100.000 символов и больше 100 минут времени. Теоретически можно сказки или книги на ночь читать.

YouTube API

На Google API присутствует весь функционал, связанный с субтитрами, но он платный. Так что вариантов для бесплатного, остается всего 2: парсить страницу с видеороликом либо «брутфорсить» API плеера на youtube.

первый вариант с парсингом, выглядит так

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что этопарсинг страницы с видеороликом

и второй, примерно, так

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что этоbrutforce api 🙂

Но, тем не менее, все более-менее доступно и досягаемо.

Получив таким образом url субтитров, и узнав в процессе много нового, о самом плеере и youtube в частности, можно уже построить какой-либо функционал с применением SpeechSynthesis API и YouTube API

Расширение

Так, примерно, и создавалось расширение для браузера, которое я назвал, после нескольких переименований

Translate and Speak Subtitles for YouTube™

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что этоTranslate and Speak Subtitles for YouTube

иконка Ева из Валл-и

В качестве завершения

Не буду слишком вдаваться в подробности, как там и что, скучные подробности и все такое. Может быть позже.

Тем не менее, выровнять скорость произношения субтитров мне удалось лишь прокрутив все голоса по таймеру, определив скорость произношения 1 буквы. Заполнив ручками таблицу со скоростями, удалось кое как «отгадывать» нужную скорость произношения субтитров, чтобы голос не отставал от видео.

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Часть API плеера на YouTube

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что этоYouTube Player API

А чтобы не сильно быстро и не сильно медленно, примерное ограничение по скорости, для русской озвучки от 1.1 до 1.6.

Не всегда помогает, бывает, что нужно скорость воспроизведения видео сделать 0.75 или 0.5 чтобы успеть за видео. Особенно в английском, если автор ролика быстро говорит, у них слова короткие, на русском нужно еще быстрее говорить, но выше 2х скорости, слова́ почти не разобрать.

Источник

Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Последние достижения в области глубокого обучения привносят существенные улучшения в развитие систем синтеза речи (далее – TTS). Это происходит благодаря применению более эффективных и быстрых методов изучения голоса и стиля говорящих, а также благодаря синтезу более естественной и качественной речи.

Однако, чтобы этого достичь, большинство систем TTS должны использовать большие и сложные модели нейронных сетей, которые трудно обучить и которые не позволяют синтезировать речь в реальном времени, даже при помощи графических процессоров.

Чтобы решить эти проблемы, наша команда IBM Research AI разработала новый метод нейросетевого синтеза, основанный на модульной архитектуре. Данный метод объединяет три глубокие нейронные сети (deep neural network, далее – DNN) с промежуточной обработкой их выходных сигналов. Мы представили эту работу в нашей статье «Высококачественная, легковесная и адаптируемая TTS технология с использованием LPCNet» на Interspeech 2019. Архитектура TTS легка и может синтезировать высококачественную речь в режиме реального времени. Каждая сеть специализируется на различных аспектах голоса говорящего, что позволяет эффективно обучать любой из компонентов независимо от других.

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Схема 1. Системная архитектура TTS

Другое преимущество нашего подхода заключается в том, что после обучения базовых сетей их можно легко адаптировать к новому стилю речи или голосу даже на небольших объемах обучающих данных, например, в целях брендинга и кастомизации.

В процессе синтеза используется интерфейсный модуль для конкретного языка, который преобразует входной текст в последовательность лингвистических признаков. Затем применяются следующие DNN одна за другой:

1. Предсказание просодии

Просодические признаки речи представлены в виде четырехмерного вектора на единицу TTS (примерно одна треть состояний звука по СММ (скрытая марковская модель)), включающего в себя log-duration, начальный и конечный log-pitch, а также log-energy. Эти признаки определяются в процессе обучения, поэтому их можно предсказать по особенностям текста, полученного интерфейсом во время синтеза. Просодия чрезвычайно важна не только для того, чтобы речь звучала естественно и живо, но и для того, чтобы в данных, предназначенных для обучения или адаптации, имелось наиболее полное отражение стиля речи говорящего. Адаптация просодии к голосу диктора основана на вариационном автоэнкодере (Variational Auto Encoder, VAE).

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Схема 2. Обучение и переобучение генератора просодии

2. Прогнозирование акустических признаков

Векторы акустических признаков обеспечивают спектральное представление речи в коротких 10-миллисекундных кадрах, из которых может быть сгенерирован фактический звук. Акустические особенности определяются в процессе обучения, и их можно предсказать по фонетическим меткам и просодии во время синтеза.

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Схема 3. Сеть-синтезатор

Созданная модель DNN представляет собой аудиоданные (голос диктора), необходимые для обучения или адаптации. Архитектура модели состоит из сверточных и рекуррентных слоев, предназначенных для извлечения локального контекста и временных зависимостей в последовательности звуков и структуре тона. DNN предсказывает акустические признаки по их первой и второй производной. Затем следует метод максимального правдоподобия и применяются формантные фильтры, которые помогают генерировать речь лучшего звучания.

3. Нейронный вокодер

Нейронный вокодер отвечает за генерацию речи из акустических признаков. Он обучается на образцах естественной речи говорящего, учитывая их соответствующие особенности. Технически мы были первыми, кто использовал новый, легкий, высококачественный нейронный вокодер под названием LPCNet в полностью коммерциализированной системе TTS.

Новизна этого вокодера заключается в том, что он не пытается предсказать сложный речевой сигнал непосредственно с помощью DNN. Вместо этого DNN только прогнозирует менее сложный остаточный сигнал голосового тракта, а затем использует фильтры LPC (Linear Predictive Coding) для преобразования его в окончательный речевой сигнал.

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Схема 4. Нейронный вокодер LPCNet

Голосовая адаптация

Адаптация к голосу легко достигается путем переобучения трех сетей на основе небольшого количества аудиоданных целевого диктора. В нашей статье мы представляем результаты адаптационных экспериментов с точки зрения качества речи и ее сходства с истинной речью диктора. На этой странице также приведены примеры адаптации к восьми различным дикторам VCTK (Voice Cloning Toolkit), из которых 4 являются мужчинами и 4 – женщинами.

Результаты прослушивания

На рисунке ниже представлены результаты тестов прослушивания синтезированных и естественных образцов речи дикторов VCTK. Значения средней экспертной оценки (Mean Opinion Score, MOS) основываются на анализе слушателями качества речи по шкале от 1 до 5. Сходство между парами образцов оценено слушателями по шкале от 1 до 4.

Мы измерили качество синтезированной речи, а также ее сходство с речью «живых» дикторов, сравнив женские и мужские адаптированные голоса длительностью 5, 10 и 20 минут с естественной речью дикторов.

Результаты испытаний показывают, что мы можем поддерживать как высокое качество, так и высокое сходство с оригиналом даже для голосов, которые были обучены на пятиминутных примерах.

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Text to speech runtime что это. Смотреть фото Text to speech runtime что это. Смотреть картинку Text to speech runtime что это. Картинка про Text to speech runtime что это. Фото Text to speech runtime что это

Схема 5. Результаты тестов на качество и сходство

Эта работа была проведена IBM Watson и послужила основой для нового выпуска сервиса IBM Watson TTS с улучшенным качеством голоса (см. голоса «*V3» в демонстрационной версии IBM Watson TTS).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *