Статус документа

ГОСТ Р 53556.6-2013 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 AUDIO). Интерфейс преобразования текста в речь (TTSI)

1 Область применения

Стандарт определяет кодированное представление преобразования текста в речь MPEG-4 Audio (M-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения.

Стандарт предназначается для приложения к функциональности M-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (MP) с кодированным потоком битов. Функциональности M-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.

Технология синтеза преобразования текста в речь (TTS) становится довольно распространенным инструментом интерфейса и начинает играть важную роль в различных областях приложения мультимедиа. При использовании функциональности синтеза TTS легко могут быть составлены мультимедийные контенты с дикторским текстом, не записывая естественный звук речи. Кроме того, функциональность синтеза TTS с анимацией лица (FA)/кинофильма (MP) возможно сделала бы содержание контента более выразительным. Технология TTS может использоваться в качестве устройства речевого выхода для инструментов FA и для дублирования MP с информацией о форме губ.

В MPEG-4 общие интерфейсы определяются для синтезатора TTS и для функциональной совместимости FA/MP. Функциональные возможности M-TTS можно рассматривать как надмножество стандартной платформы TTS. Синтезатор TTS может также использовать просодическую информацию естественной речи в дополнение к входному тексту и генерировать синтезированную речь гораздо более высокого качества. Формат потока битов интерфейса в высшей степени удобен для пользователя: если некоторые параметры просодической информации недоступны, пропущенные параметры генерируются, используя предварительно установленные правила. Функциональность M-TTS, таким образом, простирается от обычной функции синтеза TTS до кодирования естественной речи и областей его приложения, то есть, от простой функции синтеза TTS до функций для FA и MP.