Статус документа

ГОСТ Р 54412-2019 (ISO/IEC TR 24741:2018) Информационные технологии (ИТ). Биометрия. Общие положения и примеры применения

6.6 Технологии, построенные на распознавании диктора

Распознавание диктора является биометрической технологией, построенной на анализе звучания голоса, которая отличается от распознавания диктора с похожей небиометрической технологией распознавания речи, используемой для распознавания слов при диктовке или автоматической обработке инструкций, переданных по телефону.

Звук человеческого голоса преимущественно является следствием резонанса, возникающего в речевом тракте. Особенности голоса определены длиной речевого тракта и формами ротовой и носовой полостей. В технологии измерения голоса может быть применен либо текстонезависимый, либо текстозависимый метод. Другими словами, при сборе образцов голоса можно использовать специально подготовленные вопросы, отвечая на которые субъект будет произносить определенный текст, сочетающий фразы, слова или цифры (текстозависимый метод), или может произносить любые фразы, слова или цифры без определенного задания (текстонезависимый метод).

Технологии распознавания диктора особенно полезны в приложениях, связанных с телефонами. Все люди разговаривают по телефону, поэтому биометрическая система может быть встроена в частную или общественную телефонную сеть. Однако на работу систем распознавания диктора влияют окружающие субъект шумы и помехи на линиях.

Субъект произносит в микрофон заранее подготовленную (текстозависимый метод) либо произвольную (текстонезависимый метод) фразу. Данный процесс обычно повторяют несколько раз во время регистрации, для того чтобы позволить системе сформировать подходящую модель голоса, основанную на биометрических признаках, таких как кепстральные коэффициенты, которые регистрируют резонансные характеристики голосового тракта.