Использование нейросетей для анализа звуковой информации


Обзор алгоритмов распознавания речи - часть 2


Предварительная обработка и выделение первичных признаков

Речевой сигнал, поступающий в систему распознавания речи, подвергается предварительной обработке с целью компенсации погрешностей  ввода звука и учета специфики сигнала. Как правило, такая обработка заключается в очистке сигнала от шума (например, отсечением неинформативных участков спектра), фильтрации, нормализацией до некоторого установленного уровня.

Затем необходимо выделить информативные признаки речевого сигнала, т.е. те, которые наиболее полно описывают сигнал в наиболее краткой форме. Очевидно, эффективность этого этапа определяет эффективность дальнейшей обработки сигнала и его распознавание. Понятно, что временное представление сигнала является довольно неэффективным, т.к. во-первых, не учитывает  периодичности звука, во-вторых, из-за большой изменчивости речи даже один и тот же звук, произнесенный одним и тем же человеком, сильно варьируется в его временном представлении.

Гораздо более информативно спектральное представление речи. Для получения спектра используют набор полосовых фильтров, настроенных на выделение различных частот, или дискретное преобразование Фурье.   Затем полученный спектр подвергается различным преобразованиям, например,  логарифмическое изменение масштаба (как в пространстве амплитуд, так и в пространстве частот), сглаживание спектра с целью выделения его огибающей, кепстральному анализу (обратное преобразование Фурье от логарифма прямого преобразования, см. [3], Cepstral analysis). Это позволяет учесть некоторые особенности речевого сигнала – понижение информативности высокочастотных участков спектра, логарифмическую чувствительность человеческого уха, и т.д.

Как правило, полное описание речевого сигнал только его спектром невозможно. Наряду со спектральной информацией, необходима ещё и информация о динамике речи. Для её получения используют дельта-параметры, представляющие собой производные по времени от основных параметров.

Полученные таким образом параметры речевого сигнала считаются его первичными признаками и представляют сигнал на дальнейших уровнях его обработки.




- Начало -  - Назад -  - Вперед -