ГОСТ Р 53556.3-2012
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Звуковое вещание цифровое
КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ
Часть 3
(MPEG-4 AUDIO)
Кодирование речевых сигналов с использованием линейного предсказания - CELP
Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. Part 3 (MPEG-4 audio). Code excited linear prediction
ОКС 33.170
Дата введения 2013-09-01
1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 480 "Связь"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 20 ноября 2012 г. N 942-ст
4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио" (ISO/IEC 14496-3:2009 "Information technology - Coding of audio-visual objects - Part 3: Audio", NEQ)
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.
5 ВВЕДЕН ВПЕРВЫЕ
6 ПЕРЕИЗДАНИЕ. Август 2020 г.
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
Здесь дается краткий обзор декодера CELP (Code Excited Linear Prediction (Линейное предсказание с кодированием)).
Декодер CELP прежде всего состоит из генератора возбуждения и фильтра синтеза. Дополнительно декодеры СЕLP часто включают в свой состав постфильтр. У генератора возбуждения имеется адаптивная книга шифров для моделирования периодических компонент, фиксированные книги шифров для моделирования случайных компонент и декодер усиления, чтобы представлять уровень речевого сигнала. Индексы для книг шифров и коэффициентов усиления предоставляются кодером. Индексы книги шифров (индекс задержки шага для адаптивной книги шифров и индекс формы для фиксированной книги шифров) и индексы усиления (коэффициенты усиления адаптивной и фиксированной книг шифров) используются, чтобы генерировать сигнал возбуждения. Затем он фильтруется фильтром линейного прогнозирующего синтеза (фильтр синтеза LP). Коэффициенты фильтра реконструируются, используя индексы LPC, затем интерполируются коэффициентами фильтра последовательных фреймов анализа. И наконец, опционно может быть применен постфильтр, чтобы улучшить качество речи.
MPEG-4 CELP представляет собой универсальный алгоритм кодирования с новыми функциональными возможностями. Обычные кодеры CELP предлагают сжатие при одной битовой скорости и оптимизированы для определенных приложений. Сжатие является одной из функций, предоставленных CELP MPEG-4, позволяющей использовать один базовый кодер для различных приложений. Это обеспечивает масштабируемость по битовой скорости и полосе пропускания, а также возможность генерировать потоки бит с произвольной битовой скоростью. Кодер CELP MPEG-4 поддерживает две частоты дискретизации, а именно 8 и 16 кГц. Соответствующие полосы пропускания равны 100-3400 Гц для частоты дискретизации 8 кГц и 50-7000 Гц для частоты дискретизации 16 кГц. Кроме того, заново приняты сжатие молчание и переупорядочение эластичного потока бит ошибок.
1.2.1 Конфигурация кодера CELP MPEG-4
Чтобы генерировать сигнал возбуждения, могут использоваться два различных инструмента. Это инструмент Multi-Pulse Excitation (Мультиимпульсное возбуждение) (МРЕ) или инструмент Regular-Pulse Excitation (Возбуждение регулярным импульсом) (RPE). МРЕ используется для дискретизации речи на частотах 8 кГц или 16 кГц. RPE используется только для дискретизации на частоте 16 кГц. Два возможных режима кодирования сведены в таблице 1.
Таблица 1 - Режимы кодирования в кодере CELP MPEG-4
Режим кодирования | Инструмент возбуждения | Частота дискретизации |
I | RPE | 16 кГц |
II | МРЕ | 8,16 кГц |
1.2.2 Особенности кодера CELP MPEG-4
Кодер CELP MPEG-4 предлагает следующие функциональные возможности в зависимости от режима кодирования (см. таблицу 2).
Таблица 2 - Функциональные возможности кодера CELP MPEG-4
Режим кодирования | Функциональность |
I | Несколько битовых скоростей, управление FineRate |
II | Несколько битовых скоростей, масштабируемость битовой скорости, масштабируемость полосы пропускания, управление FineRate |
Для обоих режимов кодирования доступны сжатие молчания и переупорядочение эластичного потока бит ошибок.
Доступные битовые скорости зависят от режима кодирования и частоты дискретизации. Поддерживаются следующие фиксированные битовые скорости (см. таблицы 3, 4).
Таблица 3 - Фиксированные битовые скорости для режима I кодера
Битовые скорости для частоты дискретизации 16 кГц, бит/с |
14400, 16000, 18667, 22533 |
Таблица 4 - Фиксированные битовые скорости для режима II кодера
Битовые скорости для частоты дискретизации 8 кГц, бит/с | Битовые скорости для частоты дискретизации 16 кГц, бит/с |
3850, 4250, 4650, 4900, 5200, 5500, 5700, 6000, 6200, 6300, 6600, 6900, 7100, 7300, 7700, 8300, 8700, 9100, 9500, 9900, 10300, 10500, 10700, 11000, 11400, 11800, 12000, 12200 | 10900, 11500, 12100, 12700, 13300, 13900, 14300, 14700, 15900, 17100, 17900, 18700, 19500, 20300, 21100, 13600, 14200, 14800, 15400, 16000, 16600, 17000, 17400, 18600, 19800, 20600, 21400, 22200, 23000, 23800 |
Во время неактивных фреймов используется инструмент сжатия тишины и кодер CELP работает на битовых скоростях, показанных в таблице 5. Битовая скорость зависит от режима кодирования, частоты дискретизации и длины фрейма.
Таблица 5 - Битовые скорости для инструмента сжатия тишины
Режим кодирования | Частота взятия выборок, кГц | Масштабируемость ширины полосы | Длина фрейма | Битовая скорость, бит/с | ||
TX_fIag | HD-SID | LR-SID | ||||
I (RPE) | 16 | - | 15 | 133 | 2533 | 400 |
10 | 200 | 3800 | 600 | |||
II (МРЕ) | 8 | On, Off | 40 | 50 | 525 | 150 |
30 | 67 | 700 | 200 | |||
20 | 100 | 1050 | 300 | |||
10 | 200 | 2100 | 600 | |||
16 | Off | 20 | 100 | 1900 | 300 | |
10 | 200 | 3800 | 600 | |||
On | 40 | 50 | 1050 | 150 | ||
30 | 67 | 1400 | 200 | |||
20 | 100 | 2100 | 300 | |||
10 | 200 | 4200 | 600 |
Управление скоростью: обеспечивает управление битовой скоростью малыми шажками (давая возможность работать на варьируемой битовой скорости). Это достигается только за счет управления скоростью передачи параметров LPC, используя комбинации двух элементов потока бит interpolation_flag и флажок LPC_present. Для изменения отношения фреймов LPC к общему числу фреймов между 50% и 100% можно использовать управление FineRate. Это позволяет уменьшить битовую скорость относительно битовой скорости привязки, как определено в семантике.
Масштабируемость битовой скорости обеспечивается добавлением уровней расширения. Уровни расширения могут быть добавлены с шагом 2000 бит/с для сигналов, дискретизированных с частотой 8 кГц или 4000 бит/с для сигналов, дискретизированных на 16 кГц. С любой битовой скоростью, выбранной из таблицы 4, можно объединить максимум три уровня расширения.
Масштабируемость полосы пропускания с охватом обеих частот дискретизации достигнута включением инструмента расширения полосы пропускания в кодере CELP. Это инструмент расширения, поддерживаемый в Режиме II, который может быть добавлен, если требуется масштабирование с переходом от частоты дискретизации 8 кГц к частоте дискретизации 16 кГц. Полный кодер с масштабируемостью полосы пропускания состоит из основного кодера CELP для частоты дискретизации 8 кГц и инструмента расширения полосы пропускания для обеспечения одного уровня масштабируемости. Основной кодер CELP для частоты дискретизации 8 кГц может включить несколько уровней. Кодер частоты дискретизации 8 кГц с этим инструментом отличается от кодера частоты дискретизации 16 кГц. Обе конфигурации (кодер частоты дискретизации 8 кГц с масштабируемостью полосы пропускания и кодер частоты дискретизации 16 кГц) предлагают большую ясность и естественность декодированной речи, чем дает один только кодер 8 кГц, потому что они разворачивают полосу пропускания до 7 кГц. Дополнительная битовая скорость, требующаяся для инструмента масштабируемости полосы пропускания, может быть выбрана из четырех дискретных шагов для каждой битовой скорости основного уровня, как показано в таблице 6.
Таблица 6 - Битовые скорости для режима масштабируемой полосы пропускания
Битовая скорость основного уровня, бит/с | Дополнительная битовая скорость, бит/с |
3850-4650 | +9200, +10400, +11600, +12400 |
4900-5500 | +9467, +10667, +11867, +12667 |
5700-10700 | +10000, +11200, +12400, +13200 |
11000-12200 | +11600, +12800, +14000, +14800 |
Инструмент сжатия тишины может использоваться, чтобы уменьшить битовую скорость для входных сигналов с небольшой голосовой активностью. В течение таких неактивных периодов декодер заменяет регулярный сигнал возбуждения искусственно сгенерированным шумом. Для периодов голосовой активности всегда используется регулярный процесс синтеза речи. Инструмент сжатия тишины доступен, когда используется тип объекта ER-CELP.
Переупорядочение эластичного потока бит ошибок позволяет эффективно использовать усовершенствованные техники кодирования канала как неравномерная защита от ошибок (UEP). Основная идея состоит в том, чтобы перестроить контент звукового фрейма в зависимости от его чувствительности к ошибкам в одном или более случаях, принадлежащих различным категориям чувствительности к ошибкам (ESC). Эта перестановка воздействует на данные поэлементно или даже поразрядно. Фрейм эластичного потока бит ошибок строится, связывая эти случаи. Эти функциональные возможности доступны, когда используется тип объекта ER-CELP.
1.2.3 Алгоритмическая задержка режимов CELP MPEG-4
Алгоритмическая задержка кодера CELP исходит из длины фрейма и длины дополнительного предвидения. Длина фрейма зависит от режима кодирования и битовой скорости. Длина предвидения, которая является информативным параметром, также зависит от режима кодирования. Задержки, представленные ниже, применимы к режимам, где управление FineRate Control выключено (см. таблицы 7, 8, 9). Когда управление FineRate Control включено, вносится дополнительная задержка на один фрейм. Масштабируемость полосы пропускания в кодере режима II требует дополнительного предвидения на 5 мс из-за субдискретизации.