Использование нейросетей для анализа звуковой информации


Обзор алгоритмов распознавания речи


Ввод речи и  цифровая обработка

Для анализа речи её необходимо преобразовать в форму, понятную вычислительной системе. Это может быть аналоговая форма, цифровая форма, спектральное представление, представление в виде оптического излучения и т.д. Так как в работе затрагивается только моделирования систем анализа речи на персональном компьютере, то рассматривается только один вид представления звука – в цифровой форме.  Для представления акустического сигнала в цифровой форме практически во всех системах, имеющих дело со звуком, используется импульсная модуляция. Как известно, звук представляет собой продольные волны разрежения-сжатия, распространяющиеся в акустичеки-проводящей среде. Посредством звукозаписывающих устройств (например, микрофона) он преобразуется в электрический сигнал, колебания которого повторяют звуковые колебания (рис 2).

Ввод звука в компьютер

Рис. 2

Затем этот сигнал фильтруется с целью отсечения частот, превышающих некоторую частоту fmax. После этого он подается на аналого-цифровой преобразователь, который с некоторой частотой fd, называемой частотой дискретизации, записывает текущий уровень сигнала в цифровой форме, т.е. квантует сигнал по времени и по амплитуде. Как следует из теоремы Колесникова,

                                     

                                (1)

Таким образом, параметрами, определяющими качество оцифровки сигнала, являются частота дискретизации (fd) и разрядность преобразования (сколько единиц информации кодирует один отсчет). Частота дискретизации определяет максимальную частоту сигнала, которую можно записать. Типичные значения  - 11025, 22050, 44100 Гц. От разрядности зависит точность кодирования информации при аналого-цифровом преобразовании. Типичные значения – 4 бит, 8 бит, 16 бит на отсчет. Естественно, чем больше разрядность и частота дискретизации, тем точнее записывается звук, но и тем больше поток информации  и тем сложнее его записать или обработать. Технические вопросы  ввода звука в компьютер в разрабатываемой системе подробно рассматриваются в приложении 7.5.




- Начало -  - Назад -  - Вперед -