Статус документа
Статус документа

ГОСТ Р 53556.2-2012 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть 3 (MPEG-4 AUDIO). Кодирование речевых сигналов с использованием гармонических векторов - HVXC (Переиздание)

     5.1 Обзор


HVXC обеспечивает эффективную схему для разности Кодирования с линейным предсказанием (LPC) на базе гармонического и стохастического векторного представления. Векторное квантование (VQ) огибающей спектра остатков LPC со взвешенной мерой искажения используется, когда сигнал является речевым. Кодирование с векторным Возбуждением (VXC) используется, когда сигнал не является речевым. Главные алгоритмические особенности следующие:

взвешенный VQ спектрального вектора варьируемой размерности;

алгоритм быстрого гармонического синтеза IFFT;

параметры кодера интерполяции для управления скоростью/шагом.

Кроме того, функциональные особенности включают:

низкую, до 33,5 мс, полную алгоритмическую задержку;

масштабируемый режим 2,0-4,0 Кбит/с;

кодирование с варьируемой битовой скоростью для скоростей меньше 2,0 Кбит/с.

5.1.1 Структура кадрирования и блок-схема декодера

Инструменты декодера HVXC позволяют декодировать речевые сигналы на скорости 2,0 Кбит/с и выше, до 4,0 Кбит/с. Инструменты декодера HVXC также позволяют декодировать с режимом варьируемой битовой скорости при битовой скорости приблизительно 1,2-1,7 Кбит/с. Основной процесс декодирования состоит из четырех шагов: деквантование параметров, генерация сигналов возбуждения для разговорных фреймов синусоидальным синтезом (гармонический синтез) и добавление шумовой составляющей, генерация сигналов возбуждения для неразговорных фреймов путем просмотра книги шифров и синтез LPC. Чтобы повысить качество синтезируемой речи, используют спектральную постфильтрацию.

5.1.2 Режим задержки

Кодер/декодер HVXC поддерживает режим низкой/нормальной задержки кодирования/декодирования, позволяя любые комбинации режима задержки при 2,0-4,0 Кбит/с с масштабируемой схемой. Рисунок ниже показывает структуру кадрирования каждого режима задержки. Длина фрейма равна 20 мс для всех режимов задержки. Например, использование режима с низкой задержкой кодирования и низкой задержкой декодирования приводит к полной задержке кодера/декодера 33,5 мс.

В кодере алгоритмическая задержка может быть выбрана равной 26 мс либо 46 мс. Когда выбрана задержка 46 мс, для обнаружения шага используется просмотр одного фрейма вперед. Когда выбрана задержка 26 мс, для обнаружения шага используется только текущий фрейм. Синтаксис для обоих случаев общий, все квантователи общие, и потоки битов совместимы. В декодере алгоритмическая задержка может быть выбрана равной или 10 мс (режим нормальной задержки), или 7,5 мс (режим низкой задержки). Когда выбрана задержка 7,5 мс, интервал фрейма декодера сдвинут на 2,5 мс (20 отсчетов) по сравнению с 10 мс режимами задержки. В этом случае, генерация возбуждения и фаза синтеза LPC сдвинуты на 2,5 мс. Для обоих случаев синтаксис общий, все квантователи общие и потоки битов совместимы.

Возможен любой независимый выбор задержки кодера/декодера из следующей комбинации:

- задержка кодера: 26 мс или 46 мс;

- задержка декодера: 10 мс или 7,5 мс.

В зависимости от приложения должны поддерживаться одна или несколько комбинаций режима задержки.