Использование нейросетей для анализа звуковой информации


Ввод звукового сигнала - часть 2


Для этого каждый компонент вектора делится на его длину:

                                     

                             (4)

                                     

                                 (5)

Информативность различных частей спектра неодинакова: в низкочастотной области содержится больше информации, чем в высокочастотной. Поэтому для предотвращения излишнего расходования входов нейросети необходимо уменьшить число элементов, получающих информацию с высокочастотной области , или, что тоже самое, сжать высокочастотную область спектра в пространстве частот. Наиболее распространенный метод благодаря его простоте – логарифмическое сжатие, или mel-сжатие (см. [3], “ Non-linear frequency scales”):

                                     

              (6)

где  f – частота в спектре, Гц,

m – частота в новом сжатом частотном пространстве

Процесс логарифмического сжатия проиллюстрирован рисунком 10:

Нелинейное преобразование спектра в пространстве частот

Рис. 10

Такое преобразование имеет смысл, только если число элементов во входе нейросети NI  меньше числа элементов спектра NS.

После нормирования и сжатия спектр накладывается на вход нейросети. Вход нейросети – это линейно упорядоченный массив элементов, которым присваиваются уровни соответствующих частот в спектре. Эти элементы не выполняют никаких решающих функция, а только передают сигналы дальше в нейросеть. Наложение спектра на каждый входной элемент происходит путем усреднения данных из некоторой окрестности, центром которой является проекция положения этого элемента в векторе входов на вектор спектра (рис. 10).  Радиус окрестности выбирается таким, чтобы окрестности соседних элементов перекрывались. Этот прием часто используется при растяжении/сжатии векторов, (например, изображений), предотвращая «выпадение» данных. Полученный результат очень похож на действие полосовых фильтров, каждый из которых выделяет определенную полосу частот, а все вместе они перекрывают весь полезный спектр частот.

Выбор числа входов – сложная задача, потому что при малом размере входного вектора возможна потеря важной для распознавания информации, а при большом  существенно повышается сложность вычислений (только при моделировании на PC, в реальных нейросетях это неверно, т.к.


- Начало -  - Назад -  - Вперед -