Использование нейросетей для анализа звуковой информации


Ввод звукового сигнала


Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата Microsoft Wave в кодировке PCM (разрядность 16 бит, частота дискретизации 22050 Гц). Работа с файлами предпочтительней, так как позволяет многократно повторять процессы их обработки нейросетью, что особенно важно при обучении.

Процесс ввода звука изображен на рисунке 8:

Ввод звука

Рис. 8

При обработке файла по нему перемещается окно ввода, размер которого равен размеру окна дискретного преобразования Фурье (ДПФ) – N элементов. Смещение окна относительно предыдущего положения можно регулировать.  В каждом положении окна оно заполняется данными типа short  (система работает только со звуком, в котором каждый отсчет кодируется 16 битами). После ввода данных в окно перед вычислением ДПФ на него накладывается окно сглаживания Хэмминга:

              

       (2)

где Data – массив данных

newData – массив данных, полученный после наложения окна сглаживания

N – размер ДПФ

Наложение окна Хэмминга немного понижает контрастность спектра, но позволяет убрать боковые лепестки резких чстот (рис 9), при этом особенно хорошо проявляется гармонический состав речи.

Действие окна сглаживания Хэмминга (логарифмический масштаб)

             без окна сглаживания     с окном сглаживания Хэмминга

Рис 9

После этого выполняется дискретное преобразование Фурье по алгоритму быстрого преобразования Фурье [4]. В результате в реальных и мнимых коэффициентах получается амплитудный спектр и информация о фазе. Информация о фазе отбрасывается и вычисляется энергетический спектр:

                             

                  (3)

где E[i]энергии частот

Так как звуковые данные не содержат мнимой части , то по свойству ДПФ  результат получается симметричным, т.е. E[i] = E[N-i]. Таким образом, размер информативной части спектра NS равен N/2.

Все вычисления в нейросети производятся над  числами с плавающей точкой и большинство сигналов ограничены диапазоном [0.0,1.0], поэтому полученный  спектр нормируется на 1.0.


- Начало -  - Назад -  - Вперед -