Статус документа

ГОСТ Р 53556.6-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 AUDIO). Интерфейс преобразования текста в речь (TTSI)

6 Процесс декодирования преобразования текста в речь MPEG-4 Audio*

________________

* В бумажном экземпляре слова "MPEG-4 Audio" в заголовке выделены курсивом. - Примечание изготовителя базы данных.

Предметом стандартизации архитектуры декодера M-TTS являются только интерфейсы, относящиеся к декодеру M-TTS.

В этой архитектуре различаются следующие типы интерфейсов:

интерфейс между демультиплексором и синтаксическим декодером;

интерфейс между синтаксическим декодером и синтезатором речи;

интерфейс от синтезатора речи к наборщику;

интерфейс от наборщика к синтезатору речи;

интерфейс между синтезатором речи и преобразователем фонем/закладок в FAP.

6.1 Интерфейс между демультиплексором и синтаксическим декодером

Получая поток битов, демультиплексор передает кодированные потоки битов M-TTS на синтаксический декодер.

6.2 Интерфейс между синтаксическим декодером и синтезатором речи

Получая кодированный поток битов M-TTS, синтаксический декодер передает некоторые из следующих потоков битов на синтезатор речи.

Входной тип данных M-TTS: определяет синхронизированную работу с FA или MP

Поток команд управления: последовательность команд управления

Входной текст: строка(и) символов для текста, которая будет синтезирована

Вспомогательная информация: просодические параметры, включая символы фонем

Образцы формы губ

Информация для работы режима trick

Представление кода pseudo-C этого интерфейса.

6.3 Интерфейс от синтезатора речи к наборщику

Этот интерфейс идентичен интерфейсу для оцифрованной естественной речи в наборщике. Динамический диапазон от -32767 до +32768.

6.4 Интерфейс от наборщика к синтезатору речи

Этот интерфейс определяется, чтобы позволить локальное управление синтезируемой речи пользователями. Такой пользовательский интерфейс поддерживает режим приема синтезируемой речи в синхронизации с МР и изменяет некоторые просодические свойства синтезируемой речи путем использования ttsControl, определенного следующим образом:

Таблица 4 - Синтаксис ttsControl ()


Синтаксис		Количество битов	Мнемоника
ttsControl()
{
	ttsPlay();
	ttsForward();
	ttsBackward();
	ttsStopSyllable();
	ttsStopWord();
	ttsStopPhrase();
	TtsChangeSpeedRate();
	TtsChangePitchDynamicRange();
	TtsChangePitchHeight();
	TtsChangeGender();
	ttsChangeAge();
}

Составляющая функция ttsPlay позволяет пользователю запускать синтез речи в прямом направлении, в то время как ttsForward и ttsBackword позволяют пользователю менять позицию запуска воспроизведения в прямом и обратном направлениях соответственно. Функции ttsStopSyllable, ttsStopWord и ttsStopPhrase определяют интерфейс для пользователей, чтобы останавливать синтез речи на указанной границе, такой как слог, слово и фраза. Составляющая функция ttsChangeSpeechRate является интерфейсом для изменения темпа синтезируемый речи. Параметр скорости принимает значения от 1 до 16. Составляющая функция ttsChangePitchDynamicRange является интерфейсом для изменения динамического диапазона основного тона синтезируемой речи. Используя параметр этой функции, уровень, пользователь может менять динамический диапазон от 1 до 16. Также пользователь может изменить высоту оновного тона от 1 до 16 при использовании параметра высоты в составляющей функции ttsChangePitchHeight. Составляющие функции ttsChangeGender и ttsChangeAge позволяют пользователю изменять пол и возраст производителя синтетической речи, назначая значения их параметрам, полу и возрасту соответственно.