ГОСТ Р 53452-2009/ISO/TR 19358:2002
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Эргономика
ПРОЕКТИРОВАНИЕ И ПРИМЕНЕНИЕ ИСПЫТАНИЙ РЕЧЕВЫХ ТЕХНОЛОГИЙ
Ergonomics. Construction and application of tests for speech technology
ОКС 13.180
Дата введения 2010-12-01
1 ПОДГОТОВЛЕН Автономной некоммерческой организацией "Научно-исследовательский центр контроля и диагностики технических систем" (АНО "НИЦ КД") на основе собственного перевода англоязычной версии международного документа, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 201 "Эргономика"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 7 декабря 2009 г. N 572-ст
4 Настоящий стандарт идентичен международному документу ISO/TR 19358:2002* "Эргономика. Проектирование и применение испытаний речевых технологий" (ISO/TR 19358:2002 "Ergonomics - Construction and application of tests for speech technology", IDT)
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.
5 ВВЕДЕН ВПЕРВЫЕ
6 ПЕРЕИЗДАНИЕ. Август 2019 г.
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
В настоящем стандарте установлены методы определения систем речевых технологий (программ автоматического распознавания речи, систем преобразования текста в речь и устройств, использующих речевой сигнал) и выбора соответствующих процедур испытаний. Речевое общение человека с человеком в настоящем стандарте не рассматривается (см. ИСО 9921:2003 "Эргономика. Оценка речевой связи").
Международный стандарт, на основе которого подготовлен настоящий стандарт, разработан Техническим комитетом ИСО/ТС 159 "Эргономика".
В настоящем стандарте установлены методы испытаний и оценки товаров и услуг, связанных с речевыми технологиями. Стандарт предназначен для специалистов в области речевых технологий, а также покупателей и пользователей таких систем.
В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 автоматическое распознавание речи (automatic speech recognition; ASR): Способность системы принимать входную информацию в виде человеческой речи.
2.2 диалог (dialogue): Интерактивный обмен информацией между речевой системой и говорящим человеком (пользователем).
2.3 управление диалогом (dialogue management): Управление речевым диалогом между системой и человеком.
2.4 обработка естественного языка (natural language processing; NLP): Автоматическая обработка текста, создаваемого человеком.
2.5 объективная оценка (objective assessment): Оценка, обычно полученная без прямого участия человека в процессе измерений на основе предварительно записанной речи.
2.6 критерии качества работы (performance measures): Способы оценки работоспособности системы, обычно с использованием методов диагностики или оценки относительной эффективности.
2.7 обучаемая система (распознавания речи) (speaker-dependent system): Система распознавания речи, для работы которой необходимо обучение системы на речи конкретного пользователя.
2.8 идентификация говорящего (speaker identification): Идентификация конкретного пользователя среди ограниченного набора возможных пользователей.
2.9 система распознавания речи (speaker-independent system): Система, не требующая обучения на речи конкретного пользователя, пригодная для любого пользователя из выбранной группы (носителей языка, взрослых и т.д.).
2.10 распознавание речи пользователя (speaker recognition): Основной элемент технологий, идентифицирующих или верифицирующих идентификацию пользователя.
2.11 верификация идентификации пользователя (speaker verification): Проверка идентификации пользователя с помощью оценки особенностей речи.
2.12 манера речи (speaking style): Особенности речи, такие как прерывистость или непрерывность, чтение напечатанного текста, импровизация и т.п.
2.13 речевое взаимодействие (speech communication): Обмен информацией с помощью возможностей речи (тон и тембр, модуляции голоса).
Примечание - Речевое взаимодействие предусматривает краткие тексты, предложения, группы слов, отдельные слова, речь с запинанием, мямленьем и части слов.
2.14 программа распознавания речи (speech recognizer): Программное средство, обеспечивающее распознавание речи.
Примечание - Это процесс, с помощью которого компьютер трансформирует акустический речевой сигнал в текст.
2.15 синтез речи (speech synthesis): Генерация речи на основе данных.
2.16 понимание речи (speech understanding): Технология извлечения семантического содержания речи.
2.17 субъективная оценка (subjective assessment): Оценка, обычно полученная с непосредственным участием людей в процессе измерений.
2.18 синтез речи по тексту (text-to-speech synthesis): Генерация слышимой речи на основе текста.
2.19 словарь (vocabulary): Набор слов, используемых в контексте.
2.20 объем словаря (vocabulary size): Количество слов в словаре программы распознавания речи.
Речевые технологии предусматривают автоматическое распознавание речи, говорящего пользователя, а также синтез речи и т.п. Обработка естественного языка (NLP) включает в себя понимание элементов текста и управление диалогом между пользователем и машиной. Современные технологии по большей части основаны на алгоритмах, которые используют обработку цифрового сигнала с помощью процессора цифровых сигналов или (персональной) компьютерной системы. Алгоритмы формируют ответы практически в реальном времени. Производительность зависит от применения. Например, система распознавания речи с небольшим объемом словаря, обученная для работы с речью одного пользователя (например, при управлении личным портативным телефоном), намного удобнее (для этого пользователя), чем система, имеющая большой объем словаря и разработанная для большой группы неизвестных пользователей (например, система информационных услуг общественной телефонной сети).
Для товаров и услуг, использующих речевые технологии, можно выделить четыре главных направления применения:
a) управление и контроль. Взаимодействие между пользователем и системой осуществляется с помощью автоматического распознавания речи (ASR). ASR обычно используют при мультимодальном проектировании, в котором речевое управление системой является одним из возможных способов управления (т.е. клавиатура, мышь, сенсорный экран и т.д. могут быть альтернативными средствами). Управление при помощи системы ASR характерно для ситуаций, когда руки оператора заняты;
b) услуги и телефонные приложения. Услуги, такие как информационный киоск, обычно требуют сочетания управления распознаванием, пониманием, синтезом речи и диалогом для управления неконтролируемым диалогом пользователя с системой. Существующие современные системы охватывают относительно простые структуры диалога, такие как туристические информационные системы (день, время, "откуда - куда") и телефонные центры (выбор требуемой информации);
c) генерация документов. Системы речевого ввода текста, обученные для работы на нескольких языках, уже присутствуют на рынке. Эти системы могут использовать стандартные системы обработки текста. Простые применения предусматривают ввод данных установленного вида (например, медицинские отчеты), более сложные системы позволяют диктовать целые документы и управлять системой обработки текста. Эти более сложные системы обычно обучены для работы со словарем большого объема и зависят от особенностей речи пользователя. Однако для обеспечения приемлемой производительности система должна быть знакома с пользователем и областью использования. Обычно это выполняют в два этапа: с помощью адаптивного акустического сеанса обучения, в котором пользователь должен читать установленный текст, и представлением нескольких документов, написанных для пользователя, которые предназначены для расширения словаря и корректировки языковой модели;
d) поиск документов. Поиск готовых документов (в архиве речевых документов), поиск информации или определенных отрывков документов или высказываний определенного пользователя представляет интерес для архивного документирования и управления, а также для компиляции кратких обзоров. Различные технологии используют для маркировки произношения, например в ASR, определения слова и распознавания говорящего. Определенные алгоритмы поиска используют для восстановления запрошенной информации.
3.2.1 Распознавание речи
Системы автоматического распознавания речи способны производить транскрипцию текстовой строки речи. Для этой цели используют обученные системы. Современные системы, использующие словарь большого объема, извлекают из речи установленные спектральные параметры, которые идентифицируют ее подэлементы (фонемы). При этом слова описывают в виде цепочки этих фонем. Схема распознавания может использовать фонемы различных уровней, относящихся к фонетическим моделям, словам (словарю) и статистическому описанию словесных комбинаций (языковой модели). Обучение фонетическим моделям необходимо для работы с большим количеством пользователей, что приводит к основанному на статистике представлению. Статистический подход обычно основан на скрытом марковском моделировании [HMM] или нейронной сети [NN]. Для составления словаря и языковой модели обычно используют доступный текст в цифровой форме, который является репрезентативным для области применения.
________________
HMM - Hidden Markov Model.
NN - Neural Network.
3.2.2 Идентификация и верификация пользователя
Автоматическая идентификация пользователя - это способность системы распознать пользователя в группе известных пользователей. Она отвечает на вопрос: "Кому принадлежит данный образец речи?". Метод включает в себя два этапа: моделирование речи популяции пользователей (обучение) и сравнение неизвестной речи с моделями речи всех пользователей (тестирование).
Верификация пользователя - это метод проверки того, что говорящий является тем, за которого он себя выдает. Основой системы верификации пользователя является алгоритм, сопоставляющий высказывание пользователя с моделью, построенной в процессе обучения на основе авторизованных зарегистрированных высказываний пользователя. Если речь соответствует модели в пределах допустимых отклонений, то система признает пользователя соответствующим заявленной личности. Для защиты от самозванцев, пытающихся обмануть систему, используют запись голоса зарегистрированного пользователя. При этом для верификации система обычно требует от пользователя произнести установленную фразу, например последовательность чисел, выбранных случайным образом каждый раз, когда пользователь пытается получить доступ. Для обеспечения достоверности верификации система верификации обращается к системе распознавания.
3.2.3 Синтез речи
Для синтеза речи используют два метода: первый, обычно называемый "консервированной речью", генерирует речь на основе сохраняемых сообщений. Чтобы сохранить пространство памяти, обычно используют методы кодирования для сжатия сообщений. Такой метод синтеза позволяет получить высококачественную речь, особенно в приложениях с быстрым откликом, где используют набор стандартных ответов. Второй метод - это "синтез речи по тексту". Он позволяет генерировать сообщение по написанному тексту. Обычно он включает в себя первый этап лингвистической обработки, на котором исходный текст преобразуется во внутреннее представление с помощью фонемических и интонационных маркеров, и второй этап генерации звука на основе этого представления. Генерация звука может быть выполнена либо полностью по правилам сложных моделей, обычно используемых для описания речи (форматный синтез, интонация), либо с помощью соединения коротких, предварительно сохраненных элементов речи (соединительный синтез). Качество речи, полученной при соединительном синтезе, обычно более высокое.
3.2.4 Понимание речи
Системы понимания речи могут быть отнесены к одному из двух видов. Первый вид рассматривает взаимодействие человека с машиной. В этом случае человек и машина работают совместно над решением конкретной проблемы. Интерактивная природа задачи дает возможность машине задать вопрос в случае, когда она не понимает намерений пользователя. В свою очередь пользователь может перефразировать запрос или команду. Системы второго вида предназначены для извлечения необходимой информации из речи, без возможности обратной связи или взаимодействия (например, при резюмировании разговорной документации)
3.2.5 Управление диалогом
Диалогом обычно считают взаимодействие двух партнеров, во время которого некоторая информация поступает от одного к другому. Более полезно рассматривать диалог как начало одним из партнеров обмена информацией для достижения определенной цели. Поэтому партнеров в диалоге следует рассматривать асимметрично: одного - как инициатора диалога, другого - как получателя информации.
При этом диалог успешно завершен, если инициатор считает, что получатель находится в состоянии, для достижения которого предназначался диалог. Целевое состояние может состоять в том, что получатель имеет некоторую информацию или выполняет задание в интересах инициатора. Возможно, что единственное сообщение прошло от инициатора к получателю и имело желаемые последствия, наблюдаемые инициатором.
На пригодность речевых и лингвистических систем влияют различные факторы. Поэтому оптимальное использование системы может быть связано с условиями ее применения. Для оптимизации использования системы необходимо определить связанные с заданием характеристики и требования к производительности системы до ее проектирования. К важным характеристикам относятся требования к типу речи пользователя, производственному заданию, обучению, окружающей среде, устройствам ввода и системе.
Отдельные слова: ряд слов, произносимых отдельно; часто используется для задач управления, контроля или ввода данных. Краткие паузы указывают границы слов.
Слитно произносимые слова: ряд слов, произносимых без пауз; часто используется для управления, контроля или ввода данных, таких как ряды чисел. Такие системы обычно проходят обучение на отдельных словах.
Чтение текста: речь, читаемая непрерывно, например, чтение книги без пауз.