Статус документа

ГОСТ Р 58668.11-2019 (ИСО/МЭК 19794-13:2018) Информационные технологии (ИТ). Биометрия. Форматы обмена биометрическими данными. Часть 11. Данные голоса

3 Термины и определения

В настоящем стандарте применены термины по ГОСТ ISO/IEC 2382-37 и ГОСТ ISO/IEC 19794-1, а также следующие термины с соответствующими определениями:

3.1 разрешение аналого-цифрового преобразователя; АЦП (analog-to-digital converter (ADC) resolution): Показатель основания 2 (число битов) числа дискретных уровней, которые АЦП может выдать на выходе.

Примечание - Типовые значения разрешения АЦП для звуковых карт: 8, 16, 20 и 24.

3.2 продолжительность звукозаписи (audio duration): Продолжительность полной звукозаписи, содержащей все фрагменты речи голосовых представлений, например полные записи звонков.

3.3 кодирование звукозаписи (audio encoding): Кодирование, используемое подсистемой сбора биометрических данных, например сотовым телефоном.

Примечания

1 Голосовой сигнал кодируется до передачи в канал. На сегодняшний день существует достаточное число форматов кодирования звукозаписи, и их число будет расти по мере развития телефонов и каналов передачи. Для кодирования звуковых волн используют форматы PCM (ITU-T G.711) и ADPCM (ITU-T G.726), для кодирования AbS используют форматы ACELP (ITU-T G.723.1) и CS-ACELP (ITU-T G.729, приложение А). Импульсно-кодовая модуляция с компандированием по A-характеристике (A-law PCM) и -характеристике приведены (mu-law PCM) в ITU-T G.711.

2 Полный список форматов кодирования звукозаписи представлен в 7.4.3.2.

3.4 сжатие (compression): Процесс, уменьшающий размер цифрового файла и, соответственно, требуемую скорость передачи данных.

Примечание - Кодирование звукозаписи может включать или не включать сжатие. Сжатие практически всегда происходит с потерями, поэтому оно влияет на исходный голосовой сигнал.

3.5 граничная частота (нижняя/верхняя) [cut-off frequency (lower/upper)]: Частота (нижняя/верхняя), на которой звуковая (акустическая) энергия падает на 3 дБ ниже средней энергии в полосе пропускания.

3.6 дальнее звуковое поле (far-field): Область, достаточно удаленная от источника, где распределение углового поля не зависит от расстояния до источника.

3.7 интерактивная голосовая система/системы автоматического доступа к информации, минуя оператора (interactive voice response, IVR): Компьютер на основе телефонии, который используется для управления потоком телефонных звонков и обеспечения самообслуживания на основе голоса.

Примечания

1 Технология, позволяющая компьютеру определить голос и нажатия клавиш.

2 Интерактивные голосовые системы обрабатывают эффекты реального мира и неестественного содержания [эмоциональные голоса; различные шумы окружающей среды; запись свободной речи с очень распространенными словами (например, "да", "нет", цифры, ключевые слова)].

3 Интерактивные голосовые системы применяют технологию автоматического распознавания речи (ASR) для навигации пользователя вместе с технологией идентификации и верификации диктора (SIV) в различных приложениях для обеспечения безопасности. Например, при осуществлении финансовых операций с помощью телефона. Интерактивные голосовые системы могут объединять технологию ASR и технологию SIV для обнаружения аудио повторов и витальности пользователя с использованием информации, которая должна быть произнесена и генерируется в установленный момент времени.

3.8 микрофон (microphone): Подсистема сбора биометрических данных, которая преобразует акустическую волну, излучаемую голосом, в электрический сигнал.

3.9 среднее звуковое поле (mid-field): Область между ближним и дальним звуковыми полями, которая имеет сочетание характеристик ближнего и дальнего звуковых полей.

3.10 ближнее звуковое поле/поле в зоне индукции (near-field): Область, в которой прямая энергия на микрофоне от первичного источника больше, чем отраженная энергия от этого источника.

Примечание - В поле произвольных размеров ближнее звуковое поле - область, достаточно близкая к источнику, распределение угловой энергии которой зависит от расстояния от источника.

3.11 коммутируемая телефонная сеть общего пользования (public switched telephone network): Технология на базе канала, используемая для коммутации аналогового сигнала, обычно телефонные звонки через сеть от источника, такого как телефон, к пункту назначения, такому как другой телефон.

Примечание - Информация о канале, касающаяся места происхождения телефонного звонка, является полезной, так как исторически шум и другие характеристики канала различаются в разных странах. Появление и развитие VoIP и других цифровых телефонных сетей ослабило влияние национальных телекоммуникационных сетей, так как новые технологии не ограничены национальными границами.

3.12 продолжительность представления (representation duration): Продолжительность фрагмента речи одного голосового представления.

3.13 частота дискретизации (sampling rate): Число отсчетов в секунду (или в другую единицу измерения), полученных из непрерывного сигнала и используемых для получения дискретного сигнала.

Примечания

1 Единица частоты дискретизации - герц (Гц), для частоты дискретизации в секунду.

2 Частота дискретизации равна частоте квантования.