В настоящем стандарте предполагается, что формат обмена данными голоса должен относиться к одному человеку и быть записан за одну сессию. Данные голоса - это временная запись звуковых акустических вибраций, создаваемых человеком при вербальном взаимодействии, как правило, включающая в себя речевые и неречевые голосовые звуки, а также неголосовые звуки, которые в данном контексте считаются шумом. Помимо лингвистической функции передачи семантической информации, данные голоса содержат акустическую и семантическую составляющие, которые могут быть использованы для распознавания диктора. Настоящий стандарт распространяется на сбор, хранение и передачу данных голоса, содержащих речь, с целью распознавания индивида.
Настоящий формат применим для различных приложений автоматического распознавания диктора, в том числе текстозависимой и текстонезависимой идентификаций и верификации диктора (SIV) и регистрации биометрических данных; условия сбора данных голоса или условия окружающей среды базы данных рассмотрены в минимальном объеме. Настоящий стандарт применяют для приложений распознавания диктора не только традиционных SIV, но и, например, связывания фрагментов речи одного и того же неизвестного диктора и определения, что известный диктор не является источником фрагмента речи. Различие между речью для создания шаблона для будущих сравнений (что в некоторых приложениях называется регистрацией) и речью для создания голосовых представлений (VR), запрашиваемых в отношении шаблонов, может возникать только в точке приложения, что требует от каждой сохраняемой записи речи поддерживать либо создание шаблона, либо создание запроса. Кроме того, автоматическое распознавание дикторов может включать в себя смежные технологии, такие как распознавание речи и языка, не только в существующих алгоритмах и приложениях, но и в будущих способах, которые невозможно предвидеть. Поэтому настоящий стандарт разработан с целью поддержки максимально широкого диапазона приложений распознавания дикторов и технических подходов.