Исследование алгоритмов искажения речевых сигналов изменением их высоты и тембра

Ч.Т. Нгуен
Тульский государственный университет,
г. Тула

Актуальность работы связана с тем, что учащиеся часто трудно воспринимают иностранную речь. Очевидно, если обучение языку проводит один преподаватель, то учащиеся привыкают к его произношению и впоследствии не сразу воспринимают иностранную речь других людей. Предложено устранение этого недостатка обучения с помощью применения искажения исходной речи. Для голоса каждого человека характерны слуховые атрибуты: высота(pitch) и тембр(timbre). При искажении речевых сигналов нам необходимо так изменить эти слуховые атрибуты, чтобы сохранить понимание речи.

Входной речевой сигнал представлен в виде последовательности {} с частотой дискретизации fs . В анализе речевых сигналов мы почти всегда анализируем короткие отрезки сигнала, а не весь сигнал. Согласно акустической теории речеобразования, применяется модель речеобразования, где речевой сигнал является реакцией линейной системы с медленно изменяющимися во времени параметрами на сигнал возбуждения. Линейная система моделирует речевой тракт, где сигнал возбуждения генерируется голосовыми связками. Для короткого сегмента речи (10-20 мс) линейная система может рассматриваться как система с постоянными параметрами. Математически это иллюстрируется выражением:

, (1)

где – импульсная характеристика линейной системы модели речевого тракта, определяющая тембр речи. Для короткого вокализованного сегмента речи – это квазипериодическая последовательность импульсов с периодом основного тона, определяющим высоту речи. Для короткого невокализованного сегмента речи – сигнал возбуждения в виде случайного шума.

Выполним дискретизированное во времени преобразование Фурье выражения (1), получим:

, (2)

где – Фурье-образ последовательности . – Фурье-образ импульсной характеристики линейной системы модели речевого тракта . – Фурье-образ последовательности .

При растяжении исходного сигнала, его Фурье-спектр сужается:

, (3)

где и является результирующей последовательностью и ее Фурье-образом, соответственно. L – параметр искажения и L<1.

При сокращении исходного сигнала, его Фурье-спектр расширяется по формуле (3) с параметром L>1.

Изменение исходного сигнала на 1/L изменяет тембр и высоту:

(4)

Если мы хотим исказить исходный сигнал изменением высоты на L и тембра на K, отличное от L, то недостаточно только растянуть (сократить) исходный сигнал. Для этого нужно оценить частотную характеристику линейной системы . Методы Кепстра, линейного предсказания, канального вокодера позволяют нам отделить от . Для метода Кепстра вычисляется фильтрацией нижних частот логарифма модуля . Для метода канального вокодера вычисляется фильтрацией нижних частот квадрата модуля . Для метода линейного предсказания оценивается при предположении, что текущий отсчет определяется его предыдущими отсчетами.

В работе исследованы алгоритмы изменения высоты и тембра речевых сигналов, построенные на основе их спектрального анализа методами Кепстра, линейного предсказания, канального вокодера. Результаты экспериментов показывают, что построенные алгоритмы могут применяться для преобразования мужского в женский голос, женского в мужской голос и взрослого в детский голос. Метод линейного предсказания лучше всего оценивает частотную характеристику , но требует больше вычислительного ресурса (время выполнения на 50 % дольше остальных). При правильно подобранных параметрах методов спектрального анализа Кепстра и канального вокодера синтезированный сигнал не отличим на слух от сигнала, полученного для метода линейного предсказания.

Список литературы

1. Рабинер Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафёр. - М.: Радио и связь, 1981. – 496 с.

2. Оппенгейм А. Цифровая обработка сигналов/ А. Оппенгейм, Р. Шафёр. - М.: Техносфера, 2009. – 856 с.

3. https://ccrma.stanford.edu/~jos/sasp/sasp.html

4. Desainte-Catherine M. Statistical approach for sounds modeling/ M. Desainte-Catherine, P. Hanna/ In Proc. DAFX-00 Conference on Digital Audio Effects, pp.91-96, Verona, 2000.

Назад к списку