Профессиональное решение
для инженеров-конструкторов и проектировщиков


ГОСТ Р 53556.3-2012

     

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ

Часть 3

(MPEG-4 AUDIO)

Кодирование речевых сигналов с использованием линейного предсказания - CELP

Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. Part 3 (MPEG-4 audio). Code excited linear prediction



ОКС 33.170

Дата введения 2013-09-01

     

Предисловие

1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 20 ноября 2012 г. N 942-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио" (ISO/IEC 14496-3:2009 "Information technology - Coding of audio-visual objects - Part 3: Audio", NEQ)

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.

5 ВВЕДЕН ВПЕРВЫЕ

6 ПЕРЕИЗДАНИЕ. Август 2020 г.


Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

     1 Область применения

     

     1.1 Общее описание декодера CELP


Здесь дается краткий обзор декодера CELP (Code Excited Linear Prediction (Линейное предсказание с кодированием)).

Декодер CELP прежде всего состоит из генератора возбуждения и фильтра синтеза. Дополнительно декодеры СЕLP часто включают в свой состав постфильтр. У генератора возбуждения имеется адаптивная книга шифров для моделирования периодических компонент, фиксированные книги шифров для моделирования случайных компонент и декодер усиления, чтобы представлять уровень речевого сигнала. Индексы для книг шифров и коэффициентов усиления предоставляются кодером. Индексы книги шифров (индекс задержки шага для адаптивной книги шифров и индекс формы для фиксированной книги шифров) и индексы усиления (коэффициенты усиления адаптивной и фиксированной книг шифров) используются, чтобы генерировать сигнал возбуждения. Затем он фильтруется фильтром линейного прогнозирующего синтеза (фильтр синтеза LP). Коэффициенты фильтра реконструируются, используя индексы LPC, затем интерполируются коэффициентами фильтра последовательных фреймов анализа. И наконец, опционно может быть применен постфильтр, чтобы улучшить качество речи.

     1.2 Функциональные возможности MPEG-4 CELP

MPEG-4 CELP представляет собой универсальный алгоритм кодирования с новыми функциональными возможностями. Обычные кодеры CELP предлагают сжатие при одной битовой скорости и оптимизированы для определенных приложений. Сжатие является одной из функций, предоставленных CELP MPEG-4, позволяющей использовать один базовый кодер для различных приложений. Это обеспечивает масштабируемость по битовой скорости и полосе пропускания, а также возможность генерировать потоки бит с произвольной битовой скоростью. Кодер CELP MPEG-4 поддерживает две частоты дискретизации, а именно 8 и 16 кГц. Соответствующие полосы пропускания равны 100-3400 Гц для частоты дискретизации 8 кГц и 50-7000 Гц для частоты дискретизации 16 кГц. Кроме того, заново приняты сжатие молчание и переупорядочение эластичного потока бит ошибок.

1.2.1 Конфигурация кодера CELP MPEG-4

Чтобы генерировать сигнал возбуждения, могут использоваться два различных инструмента. Это инструмент Multi-Pulse Excitation (Мультиимпульсное возбуждение) (МРЕ) или инструмент Regular-Pulse Excitation (Возбуждение регулярным импульсом) (RPE). МРЕ используется для дискретизации речи на частотах 8 кГц или 16 кГц. RPE используется только для дискретизации на частоте 16 кГц. Два возможных режима кодирования сведены в таблице 1.


Таблица 1 - Режимы кодирования в кодере CELP MPEG-4

Режим кодирования

Инструмент возбуждения

Частота дискретизации

I

RPE

16 кГц

II

МРЕ

8,16 кГц

1.2.2 Особенности кодера CELP MPEG-4

Кодер CELP MPEG-4 предлагает следующие функциональные возможности в зависимости от режима кодирования (см. таблицу 2).


Таблица 2 - Функциональные возможности кодера CELP MPEG-4

Режим кодирования

Функциональность

I

Несколько битовых скоростей, управление FineRate

II

Несколько битовых скоростей, масштабируемость битовой скорости, масштабируемость полосы пропускания, управление FineRate

          

Для обоих режимов кодирования доступны сжатие молчания и переупорядочение эластичного потока бит ошибок.

Доступные битовые скорости зависят от режима кодирования и частоты дискретизации. Поддерживаются следующие фиксированные битовые скорости (см. таблицы 3, 4).


Таблица 3 - Фиксированные битовые скорости для режима I кодера

Битовые скорости для частоты дискретизации 16 кГц, бит/с

14400, 16000, 18667, 22533



Таблица 4 - Фиксированные битовые скорости для режима II кодера

Битовые скорости для частоты дискретизации 8

кГц, бит/с

Битовые скорости для частоты дискретизации 16

кГц, бит/с

3850, 4250, 4650, 4900, 5200, 5500, 5700, 6000, 6200, 6300, 6600, 6900, 7100, 7300, 7700, 8300, 8700, 9100, 9500, 9900, 10300, 10500, 10700, 11000, 11400, 11800, 12000, 12200

10900, 11500, 12100, 12700, 13300, 13900, 14300, 14700, 15900, 17100, 17900, 18700, 19500, 20300, 21100, 13600, 14200, 14800, 15400, 16000, 16600, 17000, 17400, 18600, 19800, 20600, 21400, 22200, 23000, 23800

          

Во время неактивных фреймов используется инструмент сжатия тишины и кодер CELP работает на битовых скоростях, показанных в таблице 5. Битовая скорость зависит от режима кодирования, частоты дискретизации и длины фрейма.


Таблица 5 - Битовые скорости для инструмента сжатия тишины

Режим кодирования

Частота взятия выборок, кГц

Масштабируемость ширины полосы

Длина фрейма

Битовая скорость, бит/с


TX_fIag

HD-SID

LR-SID

I (RPE)

16

-

15

133

2533

400

10

200

3800

600

II (МРЕ)

8

On, Off

40

50

525

150

30

67

700

200

20

100

1050

300

10

200

2100

600

16

Off

20

100

1900

300

10

200

3800

600

On

40

50

1050

150

30

67

1400

200

20

100

2100

300

10

200

4200

600

          

Управление скоростью: обеспечивает управление битовой скоростью малыми шажками (давая возможность работать на варьируемой битовой скорости). Это достигается только за счет управления скоростью передачи параметров LPC, используя комбинации двух элементов потока бит interpolation_flag и флажок LPC_present. Для изменения отношения фреймов LPC к общему числу фреймов между 50% и 100% можно использовать управление FineRate. Это позволяет уменьшить битовую скорость относительно битовой скорости привязки, как определено в семантике.

Масштабируемость битовой скорости обеспечивается добавлением уровней расширения. Уровни расширения могут быть добавлены с шагом 2000 бит/с для сигналов, дискретизированных с частотой 8 кГц или 4000 бит/с для сигналов, дискретизированных на 16 кГц. С любой битовой скоростью, выбранной из таблицы 4, можно объединить максимум три уровня расширения.

Масштабируемость полосы пропускания с охватом обеих частот дискретизации достигнута включением инструмента расширения полосы пропускания в кодере CELP. Это инструмент расширения, поддерживаемый в Режиме II, который может быть добавлен, если требуется масштабирование с переходом от частоты дискретизации 8 кГц к частоте дискретизации 16 кГц. Полный кодер с масштабируемостью полосы пропускания состоит из основного кодера CELP для частоты дискретизации 8 кГц и инструмента расширения полосы пропускания для обеспечения одного уровня масштабируемости. Основной кодер CELP для частоты дискретизации 8 кГц может включить несколько уровней. Кодер частоты дискретизации 8 кГц с этим инструментом отличается от кодера частоты дискретизации 16 кГц. Обе конфигурации (кодер частоты дискретизации 8 кГц с масштабируемостью полосы пропускания и кодер частоты дискретизации 16 кГц) предлагают большую ясность и естественность декодированной речи, чем дает один только кодер 8 кГц, потому что они разворачивают полосу пропускания до 7 кГц. Дополнительная битовая скорость, требующаяся для инструмента масштабируемости полосы пропускания, может быть выбрана из четырех дискретных шагов для каждой битовой скорости основного уровня, как показано в таблице 6.


Таблица 6 - Битовые скорости для режима масштабируемой полосы пропускания

Битовая скорость основного уровня, бит/с

Дополнительная битовая скорость, бит/с

3850-4650

+9200, +10400, +11600, +12400

4900-5500

+9467, +10667, +11867, +12667

5700-10700

+10000, +11200, +12400, +13200

11000-12200

+11600, +12800, +14000, +14800

          

Инструмент сжатия тишины может использоваться, чтобы уменьшить битовую скорость для входных сигналов с небольшой голосовой активностью. В течение таких неактивных периодов декодер заменяет регулярный сигнал возбуждения искусственно сгенерированным шумом. Для периодов голосовой активности всегда используется регулярный процесс синтеза речи. Инструмент сжатия тишины доступен, когда используется тип объекта ER-CELP.

Переупорядочение эластичного потока бит ошибок позволяет эффективно использовать усовершенствованные техники кодирования канала как неравномерная защита от ошибок (UEP). Основная идея состоит в том, чтобы перестроить контент звукового фрейма в зависимости от его чувствительности к ошибкам в одном или более случаях, принадлежащих различным категориям чувствительности к ошибкам (ESC). Эта перестановка воздействует на данные поэлементно или даже поразрядно. Фрейм эластичного потока бит ошибок строится, связывая эти случаи. Эти функциональные возможности доступны, когда используется тип объекта ER-CELP.

1.2.3 Алгоритмическая задержка режимов CELP MPEG-4

Алгоритмическая задержка кодера CELP исходит из длины фрейма и длины дополнительного предвидения. Длина фрейма зависит от режима кодирования и битовой скорости. Длина предвидения, которая является информативным параметром, также зависит от режима кодирования. Задержки, представленные ниже, применимы к режимам, где управление FineRate Control выключено (см. таблицы 7, 8, 9). Когда управление FineRate Control включено, вносится дополнительная задержка на один фрейм. Масштабируемость полосы пропускания в кодере режима II требует дополнительного предвидения на 5 мс из-за субдискретизации.