Статус документа

ГОСТ Р 54412-2011/ISO/IEC/TR 24741:2007 Информационные технологии (ИТ). Биометрия. Обучающая программа по биометрии

3.7 Технологии, построенные на анализе голоса

Распознавание субъекта является биометрической технологией верификации и идентификации говорящего по голосу. Не стоит путать распознавание субъекта с похожей не биометрической технологией распознавания речи, используемой для распознавания слов при диктовке или автоматической обработке инструкций, переданных по телефону.

Звук человеческого голоса является следствием резонанса, возникающего в речевом тракте. Особенности голоса определяются длиной речевого тракта и формами ротовой и носовой полостей.

В технологии измерения голоса может применяться либо текстонезависимый, либо текстозависимый метод. Другими словами, при захвате голоса можно использовать специально подготовленные вопросы, отвечая на которые, субъект будет произносить определенный текст, сочетающий фразы, слова или цифры (текстозависимый метод), или субъект может произносить любые фразы, слова или цифры без определенного задания (текстонезависимый метод). На сегодняшний день текстозависимые (с вопросом) техники доминируют в сфере коммерческих систем распознавания субъекта по голосу.

Технологии распознавания субъекта по голосу особенно полезны в приложениях, связанных с телефонами. Мы все разговариваем по телефону, а биометрическая система может быть встроена в частную или общественную телефонную сеть. Однако на работу систем распознавания субъекта влияют окружающие субъект шумы и помехи на линиях.

Субъект произносит в микрофон заранее подготовленную (текстозависимый метод) либо произвольную фразу (текстонезависимый метод). Данный процесс обычно повторяется несколько раз во время регистрации, чтобы позволить системе сформировать подходящий профиль голоса.

Блок извлечения признаков выделяет уникальный голосовой сигнал и создает шаблон (биометрический эталон). Предпочтительным методом является верификация "один-к-одному". Диктор произносит в микрофон фразу, далее происходит сопоставление нового образца голоса с биометрическим шаблоном.