Статус документа

ГОСТ Р 54711-2011 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. MPEG-1 часть III (MPEG-1 audio)

     Приложение Г
      (обязательное)

Психоакустические модели

Г.1 Психоакустическая модель 1

Нет никакого принципиального различия в использовании психоакустической модели 1 в Уровне I или II.

Уровень I: процедура распределения битов выполняется для каждого блока из 12 субполосных или 384 входных ИКМ-отсчетов.

Уровень II: процедура распределения битов выполняется для трех блоков с общим количеством субполосных отсчетов, равным 36, соответствующих 3*384 (1152) входным ИКМ-отсчетам.

Распределение битов между 32 субполосами вычисляется на основе отношения сигнал-маска в этих субполосах. Поэтому для каждой субполосы необходимо определить максимальный уровень сигнала и минимальное значение порога маскирования. Минимальное значение порога маскирования определяется из БПФ входного ИКМ сигнала, сопровождаемого психоакустическим расчетом.

БПФ параллельно с субполосной фильтрацией компенсирует слабую частотную селективность набора полосовых фильтров в нижней части звукового диапазона. Этот метод обеспечивает как приемлемое временное разрешение для кодирования звукового сигнала (набор полифазных фильтров с оптимизированным окном для минимального пре-эха), так и приемлемое частотное разрешение для вычисления порогов маскирования. Определяются частоты и уровни интерференционных искажений. Это необходимо для того, чтобы вычислить минимальную скорость передачи для тех субполос, которые нуждаются в дополнительных битах, чтобы устранить заметность интерференционных искажений в декодере. Дополнительные сложности, вызванные необходимостью получения улучшенной разрешающей способности по частоте, необходимы только в кодере и не вызывают дополнительной задержки в кодере или усложнения его алгоритма.

Вычисление отношения сигнал-маска состоит из девяти шагов:

1 вычисление БПФ для частотного преобразования;

2 определение уровня звукового давления в каждой субполосе;

3 определение абсолютного порога слышимости;

4 обнаружение тональных (близких к синусоиде) и нетональных (близких к шуму) компонентов аудиосигнала;

5 прореживание маскеров в целях оставить только значащие;

6 вычисление индивидуальных порогов маскирования;

7 вычисление глобального порога маскирования;

8 определение минимального порога маскирования в каждой субполосе;

9 вычисление отношения сигнал-маска в каждой субполосе.

Предполагается, что частота дискретизации равна 48 кГц. Для двух других частот дискретизации все указанные значения частот должны быть пересчитаны соответствующим образом.

Шаг 1. Вычисления для частотного преобразования БПФ

Порог маскирования определяется путем оценки спектральной плотности мощности, которая вычисляется путем БПФ с 512 отсчетами для Уровня I или с 1024 отсчетами для Уровня II. На вход БПФ поступают непосредственно отсчеты входного ИКМ сигнала, умноженные на оконную функцию Ханна.

Для согласования по времени распределения битов и соответствующих субполосных отсчетов ИКМ отсчеты, поступающие на вход БПФ, должны быть задержаны.

1. Задержка набора субполосных фильтров анализа равна 256 отсчетам, что соответствует 5,3 мс на частоте дискретизации 48 кГц. Сдвиг окна на 256 отсчетов необходим для компенсации задержки набора субполосных фильтров анализа.

2. Окно Ханна должно быть выровнено относительно субполосных отсчетов кадра. Для Уровня I это приводит к дополнительному сдвигу окна на 64 отсчета. Для Уровня II требуется дополнительный сдвиг окна на минус 64 отсчета.

Технические данные БПФ:


	Уровень I	Уровень II
размер преобразования	512 отсчетов	1024 отсчета
размер окна при 48 кГц	10,67 мс	21,3 мс
размер окна при 44,1 кГц	11,6 мс	23,2 мс
размер окна при 32 кГц	16 мс	32 мс
разрешающая способность по частоте	sampling_frequency/512	sampling_frequency/1024
- окно Ханна h(i)

Приложение Г (обязательное)

Приложение Г
(обязательное)