Использование нейросетей для анализа звуковой информации


Модель синтеза речи - часть 2


Как видно, этих параметров немного, но вполне достаточно для того, чтобы синтезируемые звуки были разборчивыми. Естественно, для получения более качественного синтеза необходимо строить более детальную модель, но для решения поставленной задачи этой модели вполне достаточно.

 

Синтез речи в системе осуществляется следующим образом:

1.     уровни выходов нейронов эффекторного слоя нейросети при помощи карты эффекторов преобразуются в значения выбранных параметров модели синтеза. Карта эффекторов определяет соответствие между каждым нейроном эффекторного слоя и конкретным параметром модели синтеза, а также предельные значения каждого параметра. Число эффекторов и число параметров модели может не совпадать; если параметру не соответствует ни один эффектор, используется некоторое фиксированное значение (значение по умолчанию).

2.     по текущему состоянию модели синтезируется сигнал в пространстве частот:  генерируется линейка частот, представляющих голосовой источник, на неё накладывается формантная структура (резонансы). Для синтеза шума используется генератор случайной амплитуды и фазы.

3.     выполняется обратное преобразование Фурье для получения звука во временной форме

В этом алгоритме узким местом является размер окна ДПФ. В данной модели синтезируются статичные звуки, т.е. в не происходит изменение параметров в процессе синтеза. В реальной же речи параметры звука меняются при переходе от одного  звука к другому, причем меняются непрерывно. Очевидно, при использовании окон ДПФ такой результат получить невозможно – в пределах окна параметры звука меняться не будут (вернее сказать, что невозможно получить приведенным выше алгоритмом; теоретически же благодаря полной обратимости дискретного преобразования Фурье возможно получить спектр для  любого сигнала, в том числе и с динамически меняющимися параметрами). Поэтому для генерации звука с изменяющимися параметрами нужно сокращать размер окна ДПФ или брать не весь сгенерированный кадр, а только его часть (естественно, не забывая синхронизировать фазу сигнала).В идеале размер кадра можно свести к одному сэмплу (одному отсчету дискретизации по времени). Этот способ генерации речи дает лучшие по сравнению с ДПФ результаты, но работает гораздо медленнее ДПФ. В системе имеется возможность выбрать используемый способ генерации.

Для исследования формантно-голосовой модели синтеза речи был создан инструмент Модель синтеза, в котором ручным заданием параметров можно синтезировать практически любой гласный или шипящий звук. Также приводятся уже готовые образцы некоторых звуков (в форме параметров модели).

 

 




- Начало -  - Назад -  - Вперед -