ГОСТ Р 53556.6-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 AUDIO). Интерфейс преобразования текста в речь (TTSI)

Статус документа

ГОСТ Р 53556.6-2013

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ. ЧАСТЬ III (MPEG-4 AUDIO)

Интерфейс преобразования текста в речь (TTSI)

Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. A part III (MPEG-4 audio). Texe to speech interface (TTSI)

ОКС 33.170

Дата введения 2014-09-01

Предисловие

1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института Связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)

2 ВНЕСЕН Техническим комитетом по стандартизации N 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 22 ноября 2013 г. N 1703-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио" (ISO/IEC 14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio (NEQ)

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.

5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в годовом (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячно издаваемом информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

1 Область применения

Стандарт определяет кодированное представление преобразования текста в речь MPEG-4 Audio (M-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения.

Стандарт предназначается для приложения к функциональности M-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (MP) с кодированным потоком битов. Функциональности M-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.

Технология синтеза преобразования текста в речь (TTS) становится довольно распространенным инструментом интерфейса и начинает играть важную роль в различных областях приложения мультимедиа. При использовании функциональности синтеза TTS легко могут быть составлены мультимедийные контенты с дикторским текстом, не записывая естественный звук речи. Кроме того, функциональность синтеза TTS с анимацией лица (FA)/кинофильма (MP) возможно сделала бы содержание контента более выразительным. Технология TTS может использоваться в качестве устройства речевого выхода для инструментов FA и для дублирования MP с информацией о форме губ.

В MPEG-4 общие интерфейсы определяются для синтезатора TTS и для функциональной совместимости FA/MP. Функциональные возможности M-TTS можно рассматривать как надмножество стандартной платформы TTS. Синтезатор TTS может также использовать просодическую информацию естественной речи в дополнение к входному тексту и генерировать синтезированную речь гораздо более высокого качества. Формат потока битов интерфейса в высшей степени удобен для пользователя: если некоторые параметры просодической информации недоступны, пропущенные параметры генерируются, используя предварительно установленные правила. Функциональность M-TTS, таким образом, простирается от обычной функции синтеза TTS до кодирования естественной речи и областей его приложения, то есть, от простой функции синтеза TTS до функций для FA и MP.

2 Термины и определения

В настоящем стандарте применены термины с соответствующими определениями, используемые в ГОСТ Р 53556.0-2009.

3 Символы и сокращения


F0	основная частота (частота основного тона)
DEMUX	демультиплексор
FA	анимация лица
FAP	параметр анимации лица
ID	идентификатор
IPA	Международный фонетический алфавит
MP	кинофильм
M-TTS	TTS MPEG-4 Audio
STOD	повествователь историй по требованию
TTS	преобразование текста в речь

4 Синтаксис потока битов преобразования текста в речь MPEG-4 Audio*

________________

* В бумажном экземпляре слова "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.

4.1 TTSSpecificConfig MPEG-A Audio


TTSSpecificConfig () {
	TTS_Sequence ()
}

Таблица 1 - Синтаксис TTS_Sequence ()


Синтаксис		Количество битов	Мнемоника
TTS_Sequence ()
{
	TTS_Sequence ID;	5	uimsbf
	Language_Code;	18	uimsbf
	Gender_Enable;	1	bslbf
	Age_Enable;	1	bslbf
	Speech_Rate_Enable;	1	bslbf
	Prosody_Enable;	1	bslbf
	Video_Enable;	1	bslbf
	Lip_Shape_Enable;	1	bvslbf
	Trick_Mode_Enable;	1	bslbf
}

4.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio


AlPduPayload {
	TTS_Sentence ();
}

Таблица 2 - Синтаксис TTS_Sentence ()

Доступ к полной версии документа ограничен

Полный текст этого документа доступен на портале с 20 до 24 часов по московскому времени 7 дней в неделю.

Также этот документ или информация о нем всегда доступны в профессиональных справочных системах «Техэксперт» и «Кодекс».

Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Базовые нормативные документы» бесплатно

Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs

Получить доступ