________________
* В бумажном экземпляре слова "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.
Предметом стандартизации архитектуры декодера M-TTS являются только интерфейсы, относящиеся к декодеру M-TTS.
В этой архитектуре различаются следующие типы интерфейсов:
интерфейс между демультиплексором и синтаксическим декодером;
интерфейс между синтаксическим декодером и синтезатором речи;
интерфейс от синтезатора речи к наборщику;
интерфейс от наборщика к синтезатору речи;
интерфейс между синтезатором речи и преобразователем фонем/закладок в FAP.
6.1 Интерфейс между демультиплексором и синтаксическим декодером
Получая поток битов, демультиплексор передает кодированные потоки битов M-TTS на синтаксический декодер.
6.2 Интерфейс между синтаксическим декодером и синтезатором речи
Получая кодированный поток битов M-TTS, синтаксический декодер передает некоторые из следующих потоков битов на синтезатор речи.
Входной тип данных M-TTS: определяет синхронизированную работу с FA или MP
Поток команд управления: последовательность команд управления
Входной текст: строка(и) символов для текста, которая будет синтезирована
Вспомогательная информация: просодические параметры, включая символы фонем
Образцы формы губ
Информация для работы режима trick
Представление кода pseudo-C этого интерфейса.
6.3 Интерфейс от синтезатора речи к наборщику
Этот интерфейс идентичен интерфейсу для оцифрованной естественной речи в наборщике. Динамический диапазон от -32767 до +32768.
6.4 Интерфейс от наборщика к синтезатору речи
Этот интерфейс определяется, чтобы позволить локальное управление синтезируемой речи пользователями. Такой пользовательский интерфейс поддерживает режим приема синтезируемой речи в синхронизации с МР и изменяет некоторые просодические свойства синтезируемой речи путем использования ttsControl, определенного следующим образом:
Таблица 4 - Синтаксис ttsControl ()
Синтаксис | Количество битов | Мнемоника | |
ttsControl() | |||
{ | |||
ttsPlay(); | |||
ttsForward(); | |||
ttsBackward(); | |||
ttsStopSyllable(); | |||
ttsStopWord(); | |||
ttsStopPhrase(); | |||
TtsChangeSpeedRate(); | |||
TtsChangePitchDynamicRange(); | |||
TtsChangePitchHeight(); | |||
TtsChangeGender(); | |||
ttsChangeAge(); | |||
} |
Составляющая функция ttsPlay позволяет пользователю запускать синтез речи в прямом направлении, в то время как ttsForward и ttsBackword позволяют пользователю менять позицию запуска воспроизведения в прямом и обратном направлениях соответственно. Функции ttsStopSyllable, ttsStopWord и ttsStopPhrase определяют интерфейс для пользователей, чтобы останавливать синтез речи на указанной границе, такой как слог, слово и фраза. Составляющая функция ttsChangeSpeechRate является интерфейсом для изменения темпа синтезируемый речи. Параметр скорости принимает значения от 1 до 16. Составляющая функция ttsChangePitchDynamicRange является интерфейсом для изменения динамического диапазона основного тона синтезируемой речи. Используя параметр этой функции, уровень, пользователь может менять динамический диапазон от 1 до 16. Также пользователь может изменить высоту оновного тона от 1 до 16 при использовании параметра высоты в составляющей функции ttsChangePitchHeight. Составляющие функции ttsChangeGender и ttsChangeAge позволяют пользователю изменять пол и возраст производителя синтетической речи, назначая значения их параметрам, полу и возрасту соответственно.