Профессиональное решение
для инженеров-конструкторов и проектировщиков


ГОСТ Р 53556.6-2013

     

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

     

Звуковое вещание цифровое

     
КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ. ЧАСТЬ III (MPEG-4 AUDIO)

     
Интерфейс преобразования текста в речь (TTSI)

Sound broadcasting digital. Coding of signals of sound broadcasting with reduction of redundancy for transfer on digital communication channels. A part III (MPEG-4 audio). Texe to speech interface (TTSI)



ОКС 33.170

Дата введения 2014-09-01

     

Предисловие

1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института Связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)

2 ВНЕСЕН Техническим комитетом по стандартизации N 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 22 ноября 2013 г. N 1703-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио" (ISO/IEC 14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio (NEQ)

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.

5 ВВЕДЕН ВПЕРВЫЕ


Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в годовом (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячно издаваемом информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)

     1 Область применения


Стандарт определяет кодированное представление преобразования текста в речь MPEG-4 Audio (M-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения.

Стандарт предназначается для приложения к функциональности M-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (MP) с кодированным потоком битов. Функциональности M-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.

Технология синтеза преобразования текста в речь (TTS) становится довольно распространенным инструментом интерфейса и начинает играть важную роль в различных областях приложения мультимедиа. При использовании функциональности синтеза TTS легко могут быть составлены мультимедийные контенты с дикторским текстом, не записывая естественный звук речи. Кроме того, функциональность синтеза TTS с анимацией лица (FA)/кинофильма (MP) возможно сделала бы содержание контента более выразительным. Технология TTS может использоваться в качестве устройства речевого выхода для инструментов FA и для дублирования MP с информацией о форме губ.

В MPEG-4 общие интерфейсы определяются для синтезатора TTS и для функциональной совместимости FA/MP. Функциональные возможности M-TTS можно рассматривать как надмножество стандартной платформы TTS. Синтезатор TTS может также использовать просодическую информацию естественной речи в дополнение к входному тексту и генерировать синтезированную речь гораздо более высокого качества. Формат потока битов интерфейса в высшей степени удобен для пользователя: если некоторые параметры просодической информации недоступны, пропущенные параметры генерируются, используя предварительно установленные правила. Функциональность M-TTS, таким образом, простирается от обычной функции синтеза TTS до кодирования естественной речи и областей его приложения, то есть, от простой функции синтеза TTS до функций для FA и MP.

     2 Термины и определения


В настоящем стандарте применены термины с соответствующими определениями, используемые в ГОСТ Р 53556.0-2009.

     3 Символы и сокращения

F0

основная частота (частота основного тона)

DEMUX

демультиплексор

FA

анимация лица

FAP

параметр анимации лица

ID

идентификатор

IPA

Международный фонетический алфавит

MP

кинофильм

M-TTS

TTS MPEG-4 Audio

STOD

повествователь историй по требованию

TTS

преобразование текста в речь


     4 Синтаксис потока битов преобразования текста в речь MPEG-4 Audio*

________________

* В бумажном экземпляре слова  "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.

4.1 TTSSpecificConfig MPEG-A Audio

TTSSpecificConfig () {

TTS_Sequence ()

}



Таблица 1 - Синтаксис TTS_Sequence ()

Синтаксис

Количество битов

Мнемоника

TTS_Sequence ()

{

TTS_Sequence ID;

5

uimsbf

Language_Code;

18

uimsbf

Gender_Enable;

1

bslbf

Age_Enable;

1

bslbf

Speech_Rate_Enable;

1

bslbf

Prosody_Enable;

1

bslbf

Video_Enable;

1

bslbf

Lip_Shape_Enable;

1

bvslbf

Trick_Mode_Enable;

1

bslbf

}

4.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio

AlPduPayload {

TTS_Sentence ();

}



Таблица 2 - Синтаксис TTS_Sentence ()

Синтаксис

Количество битов

Мнемоника

TTS_Sentence ()

{

TTS_Sentence_ID;

10

uimsbf

Silence;

1

bslbf

if (Silence) {

SilenceDuration;

12

uimsbf

}

else {

if (Gender_Enable) {

Gender;

1

bslbf

}

if (Age_Enable) {

3

uimsbf

Age;

}

if (!Video_Enable && Speech_Rate_Enable) {

Speech_Rate;

4

uimsbf

}

Length_of_Text;

12

uimsbf

for (j = 0;j < Length_of_Text; j++) {

TTS_Text;

8

bslbf

}

if (Prosody_Enable) {

Dur_Enable;

1

bslbf

F0_Contour_Enable;

1

bslbf

Energy_Contour_Enable;

1

bslbf

Number_of_Phonemes;

10

uimsbf

Phoneme_Symbols_Length;

13

uimsbf

for (j = 0; j <Phoneme_Symbols_Length; j ++) {

Phoneme_Symbols;

8

bslbf

}

for (j = 0; j <Number_of_Phonemes; j ++) {

if (Dur_Enable) {

Dur_each_Phoneme;

12

uimsbf

}

if (F0_Contour_Enable) {

Num_F0;

5

uimsbf

for (k = 0; k <Num_F0; k ++) {

F0_Contour_each_Phoneme;

8

uimsbf

F0_Contour_each_Phoneme_Time;

12

uimsbf

}

}

if (Energy_Contour_Enable) {

Energy_Contour_each_Phoneme;

8х3=24

uimsbf

}

}

}

if (Video_Enable) {

Sentence_Duration;

16

uimsbf

Position_in_Sentence;

16

uimsbf

Offset;

10

uimsbf

}

if (Lip_Shape_Enable) {

Number_of_Lip_Shape;

10

uimsbf

for (j= 0; j <Number_of_Lip_Shape; j ++) {

Lip_Shape_in_Sentence;

16

uimsbf

Lip_Shape;

8

uimsbf

}

}

}

}