Методы сжатия речевых сигналов

Что бы ни говорили, а основным способом общения и связи между людьми были и остаются речь и передача речевых сообщений. Основные объемы передаваемой в системах связи информации сегодня приходится на речь – это и проводная телефония, и системы сотовой и спутниковой связи, и т.д. Поэтому эффективному кодированию, или сжатию речи, в системах связи уделяется исключительное внимание.

История сжатия речевых сигналов в системах связи насчитывает уже не один десяток лет. Так, например, в те времена, когда время ожидания заказанного телефонного разговора составляло десятки часов, экономические ограничения привели к установке на трансконтинентальных линиях США и атлантическом кабеле так называемой аппаратуры J2, каналы которой имели полосу
0,3 - 1,7 кГц при необходимой для нормального качества связи полосе 0,3 – 3,5 кГц. Такая аппаратура некогда работала и на линии Москва -Владивосток. Качество ее каналов едва достигало двух баллов MOS, но решающим оказалось двукратное увеличение числа телефонных соединений. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными. Сегодня же фактор качества является не менее важным, чем экономия пропускной способности каналов связи.

Рассмотрим основные свойства речевого сигнала как объекта экономного кодирования и передачи по каналам связи и попытаемся пояснить, на каких свойствах сигнала основывается возможность его сжатия.

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих за пределами полосы 0,3 - 3,4 кГц, что несколько ухудшило восприятие ряда звуков (например шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также немного ухудшает восприятие из-за потерь низкочастотных гармоник основного тона.

На приведенных ниже рисунках изображены фрагменты речевых сигналов, содержащих гласные (рис. 8.10 ) и согласные (рис. 8.11) звуки, а также спектры этих сигналов (рис. 8.12 и 8.13). Хорошо видны разница в характере соответствующих сигналов, а также то, что как в первом, так и во втором случаях ширина спектра сигнала не превышает 3,5 кГц. Кроме этого, можно отметить, что уровень низкочастотных (то есть медленных по времени) составляющих в спектре речевого сигнала значительно выше уровня высокочастотных (быстрых) составляющих. Эта существенная неравномерность спектра, кстати, является одним из факторов сжимаемости таких сигналов.

Рис. 8.10. Речевой сигнал, содержащий гласные звуки Рис. 8.11. Речевой сигнал, содержащий согласные звуки



Рис. 8.12. Спектр сигнала, содержащий гласные звуки Рис. 8.13. Спектр сигнала, содержащий согласные звуки

Второй особенностью речевых сигналов, как это можно отметить из приведенных примеров, является неравномерность распределения вероятностей (плотности вероятности) мгновенных значений сигнала. Малые уровни сигнала значительно более вероятны, чем большие. Особенно это заметно на фрагментах большой длительности с невысокой активностью речи. Этот фактор, как известно, также обеспечивает возможность экономного кодирования – более вероятные значения могут кодироваться короткими кодами, менее вероятные – длинными.

Еще одна особенность речевых сигналов – их существенная нестационарность во времени: свойства и параметры сигнала на различных участках значительно различаются. При этом размер интервала стационарности составляет порядка нескольких десятков миллисекунд. Это свойство сигнала значительно затрудняет его экономное кодирование и заставляет делать системы сжатия адаптивными, то есть подстраивающимися под значения параметров сигнала на каждом из участков.

Наконец, исключительно важным для организации сжатия речевых сигналов является понимание физики механизма речеобразования. Его упрощенная схема приведена н рис. 8.14.

Рис. 8.14. Схема поясняющая физику механизма речеобразования

Речь формируется при прохождении выталкиваемого легкими потока воздуха через голосовые связки и голосовой тракт. Голосовой тракт начинается от голосовых связок и заканчивается губами и в среднем имеет длину порядка
15 - 17 сантиметров. Голосовой тракт в силу своих резонансных свойств вносит в формируемый сигнал набор характерных для каждого человека частотных составляющих, называемых формантами. Частоты и полосы этих формант могут управляться изменением формы голосового тракта, например, изменением положения языка.

Важной частью многих голосовых кодеров/декодеров является моделирование голосового тракта как кратковременного фильтра с изменяемыми параметрами. Поскольку форма голосового тракта может изменяться сравнительно медленно (трудно предположить, что можно изменять положение языка чаще, чем 20 – 30 раз в секунду), то параметры такого фильтра должны обновляться (или изменяться) также сравнительно редко (обычно – через каждые 20 миллисекунд или даже реже).

Таким образом, голосовой тракт возбуждается потоком воздуха, направляемым в него через голосовые связки. В зависимости от способа возбуждения возникающие при этом звуки можно разделить на три класса

Гласные звуки, возникающие, когда голосовые связки вибрируют, открываясь и закрываясь, прерывая тем самым поток воздуха от легких к голосовому тракту. Возбуждение голосового тракта при этом производится квазипериодическими импульсами. Скорость (частота) открывания и закрывания связок определяют высоту возникающего звука (тона). Она может управляться изменением формы и напряжения голосовых связок, а также изменением давления подводимого воздушного потока.

Гласные звуки имеют высокую степень периодичности основного тона
с периодом 2 - 20 мс. Эта долговременная периодичность хорошо видна на рис. 8.11, где приведен фрагмент речевого сигнала с гласным звуком.

Согласные звуки, возникающие при возбуждении голосового тракта шумоподобным турбулентным потоком, формируемым проходящим с высокой скоростью через открытые голосовые связки потоком воздуха. В таких звуках, как это видно из рис. 8.11, практически отсутствует долговременная периодичность, обусловленная вибрацией голосовых связок, однако кратковременная корреляция, обусловленная влиянием голосового тракта, имеет место.

Звуки взрывного характера, возникающие, когда закрытый голосовой тракт с избыточным давлением воздуха внезапно открывается.

Некоторые звуки в чистом виде не подходят ни под один из описанных выше классов, но могут рассматриваться как их смесь. Таким образом, процесс речеобразования можно рассматривать как фильтрацию речеобразующим трактом с изменяющимися во времени параметрами сигналов возбуждения, также с изменяющимися характеристиками (рис. 8.15).

Рис. 8.15. Схема, поясняющая процесс речеобраования как фильтрацию сигналов
возбуждения

При этом, несмотря на исключительное разнообразие генерируемых речевых сигналов, форма и параметры голосового тракта, а также способы и параметры возбуждения достаточно однообразны и изменяются сравнительно медленно. Из рис. 8.10 и 8.11 хорошо видно, что речевой сигнал обладает высокой степенью кратковременной и долговременной предсказуемости из-за периодичности вибраций голосовых связок и резонансных свойств голосового тракта. Большинство кодеров/декодеров речи и используют эту предсказуемость, а также медленность изменения параметров модели системы речеобразования для уменьшения скорости кода. При этом все известные способы экономного кодирования речевых сигналов можно условно разделить на три класса, описанные ниже.




3993735469935425.html
3993813643771560.html
    PR.RU™