________________
* В бумажном экземпляре слова "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.
5.1 TTSSpecificConfig MPEG-4 Audio
TTS_Sequence_ID - пятиразрядный ID, предназначенный однозначно определить каждый объект TTS, появляющийся в одной сцене. У каждого говорящего в сцене будет отличный TTS_Sequence_ID.
Language_Code - когда это "00" (00110000 00110000 в двоичном виде), IPА должен быть отправлен. В дополнение к этим 16 битам в конце добавляются два бита, которые представляют диалекты каждого языка (определяется пользователем).
Gender_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о половой принадлежности.
Age_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о возрасте.
Speech_Rate_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о темпе речи.
Prosody_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о просодии.
Video_Enable - однобитовый флаг, который устанавливается в '1', когда декодер M-TTS работает с MP. В этом случае MTTS должен синхронизировать синтетическую речь с MP и согласовать функциональность ttsForward и ttsBackward. Когда флаг VideoEnable устанавливается, М-TTS декодер использует системные часы, чтобы выбрать соответствующий фрейм TTS_Sentence и извлечь данные Sentence_Duration, Position_in_Sentence, Offcet. Синтезатор TTS назначает подходящую продолжительность для каждой фонемы, чтобы обеспечить соответствие Sentence_Duration. Начальная точка речи в предложении определяется Position_in_Sentence. Если Position_in_Sentence равняется 0 (начальная точка является началом предложения), TTS использует Offcet как время задержки, чтобы синхронизировать синтетическую речь с MP.
Lip_Shape_Enable - однобитовый флаг, который устанавливается в '1', когда кодированный входной поток битов содержит информацию о форме губ. При наличии информации о форме губ М-TTS просит инструмент FA изменить форму губ согласно информации о синхронизации (Lip_Shape_in_Sentence) и предопределяет конфигурацию формы губ.
Trick_Mode_Enable - однобитовый флаг, который устанавливается в '1', когда кодированный входной поток битов допускает такие специальные функции, как остановка, игра, движение вперед и назад.
5.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio
TTS_Sentence_ID - десятибитовый идентификатор, однозначно определяющий предложение в последовательности текстовых данных M-TTS для целей индексации. Первые пять битов равны TTS_Sequence_ID говорящего, а остальные пять битов являются последовательным номером предложения каждого объекта TTS.
Silence - однобитовый флаг, который устанавливается в '1', когда текущая позиция является молчанием.
Silence_Duration определяет продолжительность во времени текущего сегмента молчания в миллисекундах. Оно принимает значение от 1 до 4095. Значение '0' запрещается.
Gender - однобитовый флажок, который устанавливается в '1', если половая принадлежность производителя синтетической речи является мужской и '0', если женской.
Age представляет возраст говорящего для синтетической речи. Значение возраста определяется в таблице 3.
Таблица 3 - Таблица отображения возраста
Age | Возраст говорящего |
000 | менее 6 |
001 | 6-12 |
010 | 13-18 |
011 | 19-25 |
100 | 26-34 |
101 | 35-45 |
110 | 45-60 |
111 | более 60 |
Speech_Rate - параметр определяет темп синтетической речи в 16 уровнях. Уровень 8 соответствует нормальному темпу речи говорящего, определенному в синтезаторе текущей речи, уровень 0 соответствует самой малой скорости синтезатора речи, а уровень 15 соответствует самой высокой скорости синтезатора речи.
Length_of_Text - параметр идентифицирует длину данных TTS_Text в байтах.
TTS_Text - строка символов, содержащая входной текст. Текст, заключенный в скобки < and >, содержит закладки. Если текст, заключенный в скобки < and >, начинается с FAP, закладка передается для анимации лица посредством TtsFAPInterface как строка символов. Иначе, текст закладки игнорируется.
Dur_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о продолжительности для каждой фонемы.
F0_Contour_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о контуре основного тона для каждой фонемы.
Energy_Contour_Enable - однобитовый флаг, который устанавливается в '1', когда существует информация о контуре энергии для каждой фонемы.
Number_of_Phonemes - параметр определяет число фонем, необходимых для синтеза речи из входного текста.