Статус документа
Статус документа

ГОСТ Р 58668.11-2019
 (ИСО/МЭК 19794-13:2018)



НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ



Информационные технологии

БИОМЕТРИЯ

Форматы обмена биометрическими данными

Часть 11

Данные голоса

Information technology. Biometrics. Biometric data interchange formats. Part 11. Voice data



ОКС 35.040

Дата введения 2020-06-01



Предисловие

     

1 ПОДГОТОВЛЕН Акционерным обществом "Всероссийский научно-исследовательский институт сертификации" (АО "ВНИИС"), Некоммерческим партнерством "Русское общество содействия развитию биометрических технологий, систем и коммуникаций" (Некоммерческое партнерство "Русское биометрическое общество") на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4, при консультативной поддержке Федерального государственного бюджетного образовательного учреждения высшего образования "Московский государственный технический университет имени Н.Э.Баумана (национальный исследовательский университет)" (МГТУ им.Н.Э.Баумана)

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 098 "Биометрия и биомониторинг"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 19 ноября 2019 г. N 1188-ст

4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО/МЭК 19794-13:2018* "Информационные технологии. Форматы обмена биометрическими данными. Часть 13. Данные голоса" (ISO/IEC 19794-13:2018 "Information technology - Biometric data interchange Formats - Part 13: Voice data", MOD) путем изменения отдельных фраз (слов, значений показателей, ссылок), которые выделены в тексте курсивом**. Внесение указанных технических отклонений направлено на учет потребностей национальной экономики Российской Федерации.

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.

** В оригинале обозначения и номера стандартов и нормативных документов в разделе "Предисловие", приложении ДА и отмеченные знаком "**"  приводятся обычным шрифтом, остальные по тексту документа выделены курсивом. - Примечание изготовителя базы данных.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).

Сведения о соответствии ссылочных национальных и межгосударственных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДА.

Сопоставление структуры настоящего стандарта со структурой примененного в нем международного стандарта приведено в дополнительном приложении ДБ

5 ВВЕДЕН ВПЕРВЫЕ

6 Некоторые элементы настоящего стандарта могут быть объектами патентных прав. Международная организация по стандартизации (ИСО) и Международная электротехническая комиссия (МЭК) не несут ответственности за установление подлинности каких-либо или всех таких патентных прав

    Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

Введение


В настоящем стандарте предполагается, что формат обмена данными голоса должен относиться к одному человеку и быть записан за одну сессию. Данные голоса - это временная запись звуковых акустических вибраций, создаваемых человеком при вербальном взаимодействии, как правило, включающая в себя речевые и неречевые голосовые звуки, а также неголосовые звуки, которые в данном контексте считаются шумом. Помимо лингвистической функции передачи семантической информации, данные голоса содержат акустическую и семантическую составляющие, которые могут быть использованы для распознавания диктора. Настоящий стандарт распространяется на сбор, хранение и передачу данных голоса, содержащих речь, с целью распознавания индивида.

Настоящий формат применим для различных приложений автоматического распознавания диктора, в том числе текстозависимой и текстонезависимой идентификаций и верификации диктора (SIV) и регистрации биометрических данных; условия сбора данных голоса или условия окружающей среды базы данных рассмотрены в минимальном объеме. Настоящий стандарт применяют для приложений распознавания диктора не только традиционных SIV, но и, например, связывания фрагментов речи одного и того же неизвестного диктора и определения, что известный диктор не является источником фрагмента речи. Различие между речью для создания шаблона для будущих сравнений (что в некоторых приложениях называется регистрацией) и речью для создания голосовых представлений (VR), запрашиваемых в отношении шаблонов, может возникать только в точке приложения, что требует от каждой сохраняемой записи речи поддерживать либо создание шаблона, либо создание запроса. Кроме того, автоматическое распознавание дикторов может включать в себя смежные технологии, такие как распознавание речи и языка, не только в существующих алгоритмах и приложениях, но и в будущих способах, которые невозможно предвидеть. Поэтому настоящий стандарт разработан с целью поддержки максимально широкого диапазона приложений распознавания дикторов и технических подходов.

     1 Область применения


Настоящий стандарт устанавливает требования к формату обмена биометрическими данными для хранения, записи и передачи оцифрованных акустических данных человеческого голоса (речи), полученных в течение одной сессии от одного диктора. Настоящий формат применим:

- для различных приложений идентификации и верификации диктора;

- текстонезависимого и текстозависимого распознаваний диктора.

Инкапсулированные данные в данном формате также могут быть использованы для автоматического распознавания речи, но данные вопросы не рассматриваются в настоящем стандарте.

Настоящий стандарт не устанавливает требования:

- к обработке данных, которые были обработаны на уровне голосовых моделей или признаков;

- потоковой передаче данных;

- конкретным приложениям и оборудованию.

Настоящий стандарт поддерживает хранение дополнительных нестандартизированных данных. Настоящий стандарт позволяет обмениваться как исходными данными, так и данными, которые прошли постобработку. Описание любой обработки исходного сигнала должно быть включено в метаданные голосового представления.

Вопросы, связанные с использованием временных меток и технологий криптографической защиты информации, которые используются для обеспечения подлинности, целостности и конфиденциальности хранимых и передаваемых биометрических данных, выходят за рамки настоящего стандарта.

Информация, которая представлена в данном формате, может быть записана на машиночитаемые носители информации или передана по каналам передачи данных между системами.

Определение формата обмена данными голоса в общем виде сопровождается определением схемы XML.

Настоящий стандарт включает в себя словарь терминов и определений, широко используемых профессиональным сообществом в области распознавания диктора/речи, а также терминологию из других стандартов.

     2 Нормативные ссылки


В настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ 7.67 (ИСО 3166-1:1997) Система стандартов по информации, библиотечному и издательскому делу. Коды названий стран

ГОСТ ИСО 8601 Система стандартов по информации, библиотечному и издательскому делу. Представление дат и времени. Общие требования

ГОСТ ISO/IEC 2382-37** Информационные технологии. Словарь. Часть 37. Биометрия

ГОСТ ISO/IEC 19794-1** Информационные технологии. Биометрия. Форматы обмена биометрическими данными. Часть 1. Структура

Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую ссылку этого стандарта с учетом всех внесенных в данную версию изменений. Если изменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

     3 Термины и определения


В настоящем стандарте применены термины по ГОСТ ISO/IEC 2382-37 и ГОСТ ISO/IEC 19794-1, а также следующие термины с соответствующими определениями:

3.1 разрешение аналого-цифрового преобразователя; АЦП (analog-to-digital converter (ADC) resolution): Показатель основания 2 (число битов) числа дискретных уровней, которые АЦП может выдать на выходе.

Примечание - Типовые значения разрешения АЦП для звуковых карт: 8, 16, 20 и 24.

3.2 продолжительность звукозаписи (audio duration): Продолжительность полной звукозаписи, содержащей все фрагменты речи голосовых представлений, например полные записи звонков.

3.3 кодирование звукозаписи (audio encoding): Кодирование, используемое подсистемой сбора биометрических данных, например сотовым телефоном.

Примечания

1 Голосовой сигнал кодируется до передачи в канал. На сегодняшний день существует достаточное число форматов кодирования звукозаписи, и их число будет расти по мере развития телефонов и каналов передачи. Для кодирования звуковых волн используют форматы PCM (ITU-T G.711) и ADPCM (ITU-T G.726), для кодирования AbS используют форматы ACELP (ITU-T G.723.1) и CS-ACELP (ITU-T G.729, приложение А). Импульсно-кодовая модуляция с компандированием по A-характеристике (A-law PCM) и -характеристике приведены (mu-law PCM) в ITU-T G.711.

2 Полный список форматов кодирования звукозаписи представлен в 7.4.3.2.

3.4 сжатие (compression): Процесс, уменьшающий размер цифрового файла и, соответственно, требуемую скорость передачи данных.

Примечание - Кодирование звукозаписи может включать или не включать сжатие. Сжатие практически всегда происходит с потерями, поэтому оно влияет на исходный голосовой сигнал.

3.5 граничная частота (нижняя/верхняя) [cut-off frequency (lower/upper)]: Частота (нижняя/верхняя), на которой звуковая (акустическая) энергия падает на 3 дБ ниже средней энергии в полосе пропускания.

3.6 дальнее звуковое поле (far-field): Область, достаточно удаленная от источника, где распределение углового поля не зависит от расстояния до источника.

3.7 интерактивная голосовая система/системы автоматического доступа к информации, минуя оператора (interactive voice response, IVR): Компьютер на основе телефонии, который используется для управления потоком телефонных звонков и обеспечения самообслуживания на основе голоса.

Примечания

1 Технология, позволяющая компьютеру определить голос и нажатия клавиш.

2 Интерактивные голосовые системы обрабатывают эффекты реального мира и неестественного содержания [эмоциональные голоса; различные шумы окружающей среды; запись свободной речи с очень распространенными словами (например, "да", "нет", цифры, ключевые слова)].

3 Интерактивные голосовые системы применяют технологию автоматического распознавания речи (ASR) для навигации пользователя вместе с технологией идентификации и верификации диктора (SIV) в различных приложениях для обеспечения безопасности. Например, при осуществлении финансовых операций с помощью телефона. Интерактивные голосовые системы могут объединять технологию ASR и технологию SIV для обнаружения аудио повторов и витальности пользователя с использованием информации, которая должна быть произнесена и генерируется в установленный момент времени.

3.8 микрофон (microphone): Подсистема сбора биометрических данных, которая преобразует акустическую волну, излучаемую голосом, в электрический сигнал.

3.9 среднее звуковое поле (mid-field): Область между ближним и дальним звуковыми полями, которая имеет сочетание характеристик ближнего и дальнего звуковых полей.

3.10 ближнее звуковое поле/поле в зоне индукции (near-field): Область, в которой прямая энергия на микрофоне от первичного источника больше, чем отраженная энергия от этого источника.

Примечание - В поле произвольных размеров ближнее звуковое поле - область, достаточно близкая к источнику, распределение угловой энергии которой зависит от расстояния от источника.

3.11 коммутируемая телефонная сеть общего пользования (public switched telephone network): Технология на базе канала, используемая для коммутации аналогового сигнала, обычно телефонные звонки через сеть от источника, такого как телефон, к пункту назначения, такому как другой телефон.

Примечание - Информация о канале, касающаяся места происхождения телефонного звонка, является полезной, так как исторически шум и другие характеристики канала различаются в разных странах. Появление и развитие VoIP и других цифровых телефонных сетей ослабило влияние национальных телекоммуникационных сетей, так как новые технологии не ограничены национальными границами.

3.12 продолжительность представления (representation duration): Продолжительность фрагмента речи одного голосового представления.

3.13 частота дискретизации (sampling rate): Число отсчетов в секунду (или в другую единицу измерения), полученных из непрерывного сигнала и используемых для получения дискретного сигнала.

Примечания

1 Единица частоты дискретизации - герц (Гц), для частоты дискретизации в секунду.

2 Частота дискретизации равна частоте квантования.

Доступ к полной версии документа ограничен
Полный текст этого документа доступен на портале с 20 до 24 часов по московскому времени 7 дней в неделю.
Также этот документ или информация о нем всегда доступны в профессиональных справочных системах «Техэксперт» и «Кодекс».
Нужен полный текст и статус документов ГОСТ, СНИП, СП?
Попробуйте «Техэксперт: Базовые нормативные документы» бесплатно
Реклама. Рекламодатель: Акционерное общество "Информационная компания "Кодекс". 2VtzqvQZoVs