Статус документа
Статус документа

ГОСТ Р 53556.7-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 AUDIO). Параметрическое кодирование звуковых сигналов (HILN) (Переиздание)

Приложение А
(справочное)

     
Параметрический аудиокодер

А.1 Краткий обзор инструментов кодера

В параметрическом кодере входной сигнал разделяется на две части, которые кодируются HVXC и инструментами HILN. Это может быть сделано вручную или автоматически. Автоматическое переключение между речью и музыкальными сигналами поддерживается HVXC для речи и HILN для музыки. Общее средство форматирования потока битов позволяет работу только в HVXC или только в HILN, или также в объединенных режимах, то есть переключенном или смешанном режиме.

Следующее описание параметрического кодера HILN информативно, и также альтернативные методы для сигнального разделения и оценки параметра могут использоваться в кодере.

А.2 Кодер HILN инструменты

Основной принцип HILN: кодер должен проанализировать входной сигнал, чтобы извлечь параметры, описывающие сигнал. Эти параметры кодируются и передаются как поток битов. В декодере выходной сигнал синтезируется, основанный на параметрах, извлеченных и переданных кодером.

Кодер состоит из двух основных частей: "экстракция параметра" и "кодирование параметра". В кодере входной сигнал делится на последовательные кадры, и для каждого фрейма ряд параметров, описывающих сигнал в этом фрейме, извлекается и кодируется. Из-за этого параметрического описания возможен широкий диапазон скоростей передачи, частот дискретизации и длин фрейма. Обычно используется длина фрейма 32 мс. Для входных сигналов с частотой дискретизации на 8-16 кГц обычно используется скорость передачи 6-16 Кбит/с.

А.2.1 Экстракция параметра HILN

На экстракции параметра входной сигнал разделяется на три различные части: "гармонические строки", "отдельные строки" и "шум".

Из этих параметров частей, описывающих сигнал, извлекаются:

гармонические строки: основная частота и амплитуды гармонических составляющих;

отдельные строки: частота и амплитуда каждой отдельной строки;

шум: спектральная форма шума.

Дополнительно параметры для амплитудных конвертов и для продолжения линий спектра от одного фрейма до следующего могут быть определены.

Сигнальная оценка разделения и параметра реализуется в трех шагах: сначала оценивается основная частота гармонической части сигнала, затем оцениваются параметры соответствующих линий спектра, и эти строки классифицируются как "отдельные строки" или "гармонические строки" в зависимости от частоты относительно основной частоты. После того, как все соответствующие линии спектра извлекаются, остающийся остаточный сигнал подобен шуму, и его спектральная форма описывается рядом параметров.

Гармоническая экстракция строки инструментов HILN может быть использована в интегрированном параметрическом кодере, использующем инструменты кодирования речи HVXC и кодирование инструментов HILN одновременно.

А.2.1.1 Оценка основной частоты

Инструментами HILN используется метод оценки основной частоты "Cepstrum". Сначала входной сигнал Hanning центрируется вокруг текущего фрейма. Для оконного сигнала вычисляется спектр:

w (f) = (1+cos (2*pi*f/fs))/2         0 <= f <= fs/2


Определяются локальные максимумы в cepstrum, и идентифицируется самый большой максимум в пределах разрешенного "диапазона поиска" задержки подачи. Вычисляется основная частота от "задержки подачи" (период основной частоты) самого большого максимума.

Основная частота, определенная на основе метода cepstrum, используется в качестве начальной (грубой) оценки для следующей оценки параметра строки.

А.2.1.2 Гармоническая и отдельная оценка параметра строки

Оценка гармонических и отдельных параметров строки основана на "Цикле Анализа/Синтеза".

В первом шаге оцениваются параметры всех гармонических строк. Вычисляется оценка основной частоты hFreq и "протяжения" hStretch, который минимизирует полную ошибку между реальными гармоническими строчными частотами и вычисленными согласно

hLinefreq [i] = hFreq * (i+1) * (1 + hStretch * (i+1))         i = 0.. harmNumLine-1,

где общее количество гармонических строк определяется пропускной способностью w сигнала и текущей основной частоты hFreq:

harmNumLine = floor (w/hFreq)