Использование нейросетей для анализа звуковой информации


Ввод звукового сигнала - часть 3


все элементы работают параллельно).

При большой разрешающей способности (большом числе) входов возможно выделение гармонической структуры речи и как следствие определение  высоты голоса. При малой разрешающей способности (малом числе) входов возможно только определение формантной структуры.

Как показало дальнейшее исследование этой проблемы, для распознавания уже достаточно только информации о формантной структуре. Фактически, человек одинаково распознает  нормальную голосовую речь и шепот, хотя в последнем отсутствует голосовой источник. Голосовой источник дает дополнительную информацию в виде интонации (изменением высоты тона на протяжении высказывания), и эта информация очень важна на высших уровнях обработки речи. Но в первом приближении можно ограничиться только получением формантной структуры, и для этого с учетом сжатия неинформативной части спектра достаточное число входов выбрано в пределах 10~50.

После наложения сигнала на вход нейросети начинается его обработка нейросетью. Подробно работа нейросети описана в разделе 5.2.




- Начало -  - Назад -  - Вперед -