Статус документа

ГОСТ Р 53556.6-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 AUDIO). Интерфейс преобразования текста в речь (TTSI)

5 Семантики потока битов преобразования текста в речь MPEG-4 Audio*

________________

* В бумажном экземпляре слова "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.

5.1 TTSSpecificConfig MPEG-4 Audio

TTS_Sequence_ID - пятиразрядный ID, предназначенный однозначно определить каждый объект TTS, появляющийся в одной сцене. У каждого говорящего в сцене будет отличный TTS_Sequence_ID.

Language_Code - когда это "00" (00110000 00110000 в двоичном виде), IPА должен быть отправлен. В дополнение к этим 16 битам в конце добавляются два бита, которые представляют диалекты каждого языка (определяется пользователем).

Gender_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о половой принадлежности.

Age_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о возрасте.

Speech_Rate_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о темпе речи.

Prosody_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о просодии.

Video_Enable - однобитовый флаг, который устанавливается в '1', когда декодер M-TTS работает с MP. В этом случае MTTS должен синхронизировать синтетическую речь с MP и согласовать функциональность ttsForward и ttsBackward. Когда флаг VideoEnable устанавливается, М-TTS декодер использует системные часы, чтобы выбрать соответствующий фрейм TTS_Sentence и извлечь данные Sentence_Duration, Position_in_Sentence, Offcet. Синтезатор TTS назначает подходящую продолжительность для каждой фонемы, чтобы обеспечить соответствие Sentence_Duration. Начальная точка речи в предложении определяется Position_in_Sentence. Если Position_in_Sentence равняется 0 (начальная точка является началом предложения), TTS использует Offcet как время задержки, чтобы синхронизировать синтетическую речь с MP.

Lip_Shape_Enable - однобитовый флаг, который устанавливается в '1', когда кодированный входной поток битов содержит информацию о форме губ. При наличии информации о форме губ М-TTS просит инструмент FA изменить форму губ согласно информации о синхронизации (Lip_Shape_in_Sentence) и предопределяет конфигурацию формы губ.

Trick_Mode_Enable - однобитовый флаг, который устанавливается в '1', когда кодированный входной поток битов допускает такие специальные функции, как остановка, игра, движение вперед и назад.

5.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio

TTS_Sentence_ID - десятибитовый идентификатор, однозначно определяющий предложение в последовательности текстовых данных M-TTS для целей индексации. Первые пять битов равны TTS_Sequence_ID говорящего, а остальные пять битов являются последовательным номером предложения каждого объекта TTS.

Silence - однобитовый флаг, который устанавливается в '1', когда текущая позиция является молчанием.

Silence_Duration определяет продолжительность во времени текущего сегмента молчания в миллисекундах. Оно принимает значение от 1 до 4095. Значение '0' запрещается.

Gender - однобитовый флажок, который устанавливается в '1', если половая принадлежность производителя синтетической речи является мужской и '0', если женской.

Age представляет возраст говорящего для синтетической речи. Значение возраста определяется в таблице 3.

Таблица 3 - Таблица отображения возраста


Age	Возраст говорящего
000	менее 6
001	6-12
010	13-18
011	19-25
100	26-34
101	35-45
110	45-60
111	более 60

Speech_Rate - параметр определяет темп синтетической речи в 16 уровнях. Уровень 8 соответствует нормальному темпу речи говорящего, определенному в синтезаторе текущей речи, уровень 0 соответствует самой малой скорости синтезатора речи, а уровень 15 соответствует самой высокой скорости синтезатора речи.

Length_of_Text - параметр идентифицирует длину данных TTS_Text в байтах.

TTS_Text - строка символов, содержащая входной текст. Текст, заключенный в скобки < and >, содержит закладки. Если текст, заключенный в скобки < and >, начинается с FAP, закладка передается для анимации лица посредством TtsFAPInterface как строка символов. Иначе, текст закладки игнорируется.

Dur_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о продолжительности для каждой фонемы.

F0_Contour_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о контуре основного тона для каждой фонемы.

Energy_Contour_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о контуре энергии для каждой фонемы.

Number_of_Phonemes - параметр определяет число фонем, необходимых для синтеза речи из входного текста.