Использование нейросетей для анализа звуковой информации


Синтез речи


Синтез речи – задача, решенная намного лучше, чем задача распознавания. Существует много методов синтеза речи, но в основе большинства из них лежит две модели: компилятивный синтез - синтез речи путем конкатенации  (составления)  записанных образцов отдельных звуков, произнесенных  диктором, и формантно-голосовая модель, в которой моделируется  с той или иной степенью точности речевой тракт человека.  Первая модель требует очень кропотливой работы по созданию звуковой базы данных, и самообучение этой модели представляется крайне затруднительным. Вторая модель, напротив, допускает самообучение в широких пределах, хорошо интегрируется в нейросетевую модель, но в связи со сложностью моделирования речевого тракта человека обладает низкой точностью синтезируемого звука.  Тем не менее, уже при довольно простом моделировании  синтезируемые звуки разборчивы, поэтому для исследовательских целей она предпочтительней первой.

Для построения модели синтеза речи естественно разобраться, каким образом речь синтезируется человеком. На рис. 3 схематически изображен речевой аппарат человека (см. [5]).

Речевой аппарат человека

Рис. 3

Дыхательные органы (легкие, бронхи, дыхательное горло) служат для передачи звуковых колебаний, возникающих в артикуляционном аппарате, во внешнюю среду. Источником колебаний при образовании звуков речи могут быть прежде всего голосовые связки. Голосовой источник принимает активное участие в образовании гласных и всех звонких согласных: колебания голосовых связок образуют основной тон голоса, частота которого зависит от физических свойств связок (в основном от длины и толщины) и степени их натяжения (что дает возможность изменять основной тон в широких пределах). Кроме основного тона голосовой звук содержит большое число гармоник. В основном это гармоники, кратные основному тону, и их появление хорошо объясняется теорией колебаний.

Кроме голоса, возможны другие источники звука, а именно – шумовые источники – турбулентный и импульсный. Турбулентный шум образуется при наличии сужения в каком-либо месте речевого аппарата.


- Начало -  - Назад -  - Вперед -