Приложения декодера преобразования текста в речь MPEG-4 Audio
А.1 Общее
Эта часть приложения описывает прикладные сценарии для декодера M-TTS.
А.2 Прикладной сценарий: рассказчик истории MPEG-4 по требованию (STOD)
В приложении STOD пользователи могут выбрать историю из огромной базы данных библиотек истории, которые сохраняются на жестких дисках или компакт-дисках. Система STOD читает вслух историю через декодер M-TTS с инструментом анимации лица MPEG-4 или с соответственно выбранными образами. Пользователь может остановить и продолжить воспроизведение в любой момент, когда он захочет, через пользовательские интерфейсы локальной машины (например, мышь или клавиатура). Пользователь может также выбрать пол, возраст, и темп речи электронного рассказчика историй.
Синхронизация между декодером M-TTS с инструментом анимации лица MPEG-4 реализуется при использовании того же самого времени композиции декодера M-TTS для инструмента анимации лица MPEG-4.
А.3 Прикладной сценарий: преобразование текста в речь с кинофильмом MPEG-4 Audio
В этом приложении синхронизируемое воспроизведение декодера M-TTS и закодированного кинофильма является самой важной проблемой. Архитектура декодера M-TTS может обеспечить несколько степеней синхронизации. Выравнивая время смешивания каждого TTS_Sentence, может быть легко достигнута грубая степень синхронизации и функциональности режима приема. Чтобы получить более тонкую степень синхронизации, следует использовать информацию о Lip_Shape. Наиболее тонкая степень синхронизации может быть достигнута при использовании информации о просодии и связанной с видео информации, такой как Sentence_Duration, Position_in_Sentence и Offset.
С этой возможностью синхронизации декодер M-TTS может использоваться для копирования кинофильма, используя Lip_Shape и Lip_Shape_in_Sentence.
А.4 Закладки, использующие TTS и анимацию лица MPEG-4 Audio соответственно режиму спецэффектов
Закладки позволяют анимировать лицо, используя параметры анимации лица (FAP) в сочетании с анимацией рта, полученной из фонем. FAP закладки применяются к лицу, пока другая закладка не сбрасывает FAP. Разработка контентов, которые воспроизводят каждое предложение, независимое от режима спецэффектов, требует, чтобы закладки текста, которые будут произноситься, повторялись в начале каждого предложения, чтобы инициализировать лицо в состояние, которое определяется предыдущим предложением. В этом случае, может произойти некоторое несоответствие синхронизации в начале предложения. Однако система восстанавливается, когда обрабатывается новая закладка.
А.5 Модуль произвольного доступа
Каждое TTS_Sentence является модулем произвольного доступа.