Использование нейросетей для анализа звуковой информации


Синтез речи - часть 2


В результате этого воздушный поток, поступающий из легких по относительно широкому проходу, в месте сужения создает вихревые потоки, вызывающие специфический шум, который мы слышим при образовании таких согласных, как с, ш, х. Импульсный источник вызывает звук при образовании таких согласных, как п, т, к, когда происходит резкое прерывание воздушной струи, создается избыточное давление за местом смыкания артикуляционных органов, а затем его внезапный спад при раскрытии смыкания.

Но кроме действия этих трех источников и их комбинаций вклад в звукообразование вносят резонансы в многочисленных полостях речевого тракта. Резонансы могут усиливать или ослаблять какие-то частоты, тем самым ещё больше усложняя звук. Эти усиленные частоты называются формантами. Число формант ограничено, специалистами выделяется не более четырех формант, активно участвующих в речеобразовании ([5]). В процессе речеобразования происходит постоянное изменение формант в результате  изменение положения артикуляционных органов, их твердости, объема полостей, и т.д. На рисунке 4 четко виден формантный состав гласных и и у. При переходе от гласной и происходит смещение частоты форманты F2 c 2400 Гц на 784 Гц и одновременное ослабление формант F3, F4. (Спектр получен инструментом Анализатор для файла а-о-и-у.wav  при размере окна FFT 256 сэмплов, окне сглаживания Хэмминга и логарифмическом масштабе).

Спектр файла “а-о-и-у.wav”  при переходе с и на у.

Рис. 4

Образование шипящих звуков также хорошо объясняется действием резонансов. Например, спектр звука х представляет собой шум с характерной для резонансов огибающей (рис. 5)

Спектр файла х.wav

Рис. 5

Построение  формантно-голосовой модели синтеза речи подробно описывается в разделе 5.3.




- Начало -  - Назад -  - Вперед -