Статус документа
Статус документа


ГОСТ Р 53556.6-2013

     

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

     

Звуковое вещание цифровое

     
КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ. ЧАСТЬ III (MPEG-4 AUDIO)

     
Интерфейс преобразования текста в речь (TTSI)

Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. A part III (MPEG-4 audio). Texe to speech interface (TTSI)



ОКС 33.170

Дата введения 2014-09-01

     

Предисловие

1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института Связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)

2 ВНЕСЕН Техническим комитетом по стандартизации N 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 22 ноября 2013 г. N 1703-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио" (ISO/IEC 14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio (NEQ)

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.

5 ВВЕДЕН ВПЕРВЫЕ


Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в годовом (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячно издаваемом информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

     1 Область применения


Стандарт определяет кодированное представление преобразования текста в речь MPEG-4 Audio (M-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения.

Стандарт предназначается для приложения к функциональности M-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (MP) с кодированным потоком битов. Функциональности M-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.

Технология синтеза преобразования текста в речь (TTS) становится довольно распространенным инструментом интерфейса и начинает играть важную роль в различных областях приложения мультимедиа. При использовании функциональности синтеза TTS легко могут быть составлены мультимедийные контенты с дикторским текстом, не записывая естественный звук речи. Кроме того, функциональность синтеза TTS с анимацией лица (FA)/кинофильма (MP) возможно сделала бы содержание контента более выразительным. Технология TTS может использоваться в качестве устройства речевого выхода для инструментов FA и для дублирования MP с информацией о форме губ.

В MPEG-4 общие интерфейсы определяются для синтезатора TTS и для функциональной совместимости FA/MP. Функциональные возможности M-TTS можно рассматривать как надмножество стандартной платформы TTS. Синтезатор TTS может также использовать просодическую информацию естественной речи в дополнение к входному тексту и генерировать синтезированную речь гораздо более высокого качества. Формат потока битов интерфейса в высшей степени удобен для пользователя: если некоторые параметры просодической информации недоступны, пропущенные параметры генерируются, используя предварительно установленные правила. Функциональность M-TTS, таким образом, простирается от обычной функции синтеза TTS до кодирования естественной речи и областей его приложения, то есть, от простой функции синтеза TTS до функций для FA и MP.

     2 Термины и определения


В настоящем стандарте применены термины с соответствующими определениями, используемые в ГОСТ Р 53556.0-2009.

     3 Символы и сокращения

F0

основная частота (частота основного тона)

DEMUX

демультиплексор

FA

анимация лица

FAP

параметр анимации лица

ID

идентификатор

IPA

Международный фонетический алфавит

MP

кинофильм

M-TTS

TTS MPEG-4 Audio

STOD

повествователь историй по требованию

TTS

преобразование текста в речь


     4 Синтаксис потока битов преобразования текста в речь MPEG-4 Audio*

________________

* В бумажном экземпляре слова  "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.

4.1 TTSSpecificConfig MPEG-A Audio

TTSSpecificConfig () {

TTS_Sequence ()

}



Таблица 1 - Синтаксис TTS_Sequence ()

Синтаксис

Количество битов

Мнемоника

TTS_Sequence ()

{

TTS_Sequence ID;

5

uimsbf

Language_Code;

18

uimsbf

Gender_Enable;

1

bslbf

Age_Enable;

1

bslbf

Speech_Rate_Enable;

1

bslbf

Prosody_Enable;

1

bslbf

Video_Enable;

1

bslbf

Lip_Shape_Enable;

1

bvslbf

Trick_Mode_Enable;

1

bslbf

}

4.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio

AlPduPayload {

TTS_Sentence ();

}



Таблица 2 - Синтаксис TTS_Sentence ()

Доступ к полной версии документа ограничен
Полный текст этого документа доступен на портале с 20 до 24 часов по московскому времени 7 дней в неделю.
Также этот документ или информация о нем всегда доступны в профессиональных справочных системах «Техэксперт» и «Кодекс».
Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Лаборатория. Инспекция. Сертификация» бесплатно
Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs