Статус документа
Статус документа

ГОСТ Р 53452-2009/ISO/TR 19358:2002 Эргономика. Проектирование и применение испытаний речевых технологий

     3.2 Доступные технологии

3.2.1 Распознавание речи

Системы автоматического распознавания речи способны производить транскрипцию текстовой строки речи. Для этой цели используют обученные системы. Современные системы, использующие словарь большого объема, извлекают из речи установленные спектральные параметры, которые идентифицируют ее подэлементы (фонемы). При этом слова описывают в виде цепочки этих фонем. Схема распознавания может использовать фонемы различных уровней, относящихся к фонетическим моделям, словам (словарю) и статистическому описанию словесных комбинаций (языковой модели). Обучение фонетическим моделям необходимо для работы с большим количеством пользователей, что приводит к основанному на статистике представлению. Статистический подход обычно основан на скрытом марковском моделировании [HMM] или нейронной сети [NN]. Для составления словаря и языковой модели обычно используют доступный текст в цифровой форме, который является репрезентативным для области применения.

________________

HMM - Hidden Markov Model.

NN - Neural Network.

3.2.2 Идентификация и верификация пользователя

Автоматическая идентификация пользователя - это способность системы распознать пользователя в группе известных пользователей. Она отвечает на вопрос: "Кому принадлежит данный образец речи?". Метод включает в себя два этапа: моделирование речи популяции пользователей (обучение) и сравнение неизвестной речи с моделями речи всех пользователей (тестирование).

Верификация пользователя - это метод проверки того, что говорящий является тем, за которого он себя выдает. Основой системы верификации пользователя является алгоритм, сопоставляющий высказывание пользователя с моделью, построенной в процессе обучения на основе авторизованных зарегистрированных высказываний пользователя. Если речь соответствует модели в пределах допустимых отклонений, то система признает пользователя соответствующим заявленной личности. Для защиты от самозванцев, пытающихся обмануть систему, используют запись голоса зарегистрированного пользователя. При этом для верификации система обычно требует от пользователя произнести установленную фразу, например последовательность чисел, выбранных случайным образом каждый раз, когда пользователь пытается получить доступ. Для обеспечения достоверности верификации система верификации обращается к системе распознавания.

3.2.3 Синтез речи

Для синтеза речи используют два метода: первый, обычно называемый "консервированной речью", генерирует речь на основе сохраняемых сообщений. Чтобы сохранить пространство памяти, обычно используют методы кодирования для сжатия сообщений. Такой метод синтеза позволяет получить высококачественную речь, особенно в приложениях с быстрым откликом, где используют набор стандартных ответов. Второй метод - это "синтез речи по тексту". Он позволяет генерировать сообщение по написанному тексту. Обычно он включает в себя первый этап лингвистической обработки, на котором исходный текст преобразуется во внутреннее представление с помощью фонемических и интонационных маркеров, и второй этап генерации звука на основе этого представления. Генерация звука может быть выполнена либо полностью по правилам сложных моделей, обычно используемых для описания речи (форматный синтез, интонация), либо с помощью соединения коротких, предварительно сохраненных элементов речи (соединительный синтез). Качество речи, полученной при соединительном синтезе, обычно более высокое.

3.2.4 Понимание речи

Системы понимания речи могут быть отнесены к одному из двух видов. Первый вид рассматривает взаимодействие человека с машиной. В этом случае человек и машина работают совместно над решением конкретной проблемы. Интерактивная природа задачи дает возможность машине задать вопрос в случае, когда она не понимает намерений пользователя. В свою очередь пользователь может перефразировать запрос или команду. Системы второго вида предназначены для извлечения необходимой информации из речи, без возможности обратной связи или взаимодействия (например, при резюмировании разговорной документации)

3.2.5 Управление диалогом

Диалогом обычно считают взаимодействие двух партнеров, во время которого некоторая информация поступает от одного к другому. Более полезно рассматривать диалог как начало одним из партнеров обмена информацией для достижения определенной цели. Поэтому партнеров в диалоге следует рассматривать асимметрично: одного - как инициатора диалога, другого - как получателя информации.

При этом диалог успешно завершен, если инициатор считает, что получатель находится в состоянии, для достижения которого предназначался диалог. Целевое состояние может состоять в том, что получатель имеет некоторую информацию или выполняет задание в интересах инициатора. Возможно, что единственное сообщение прошло от инициатора к получателю и имело желаемые последствия, наблюдаемые инициатором.