НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Эргономика. Проектирование и применение испытаний речевых технологий
МЕТОДИКА ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ КАЧЕСТВА РАСПОЗНАВАНИЯ ГОЛОСОВЫХ КОМАНД УПРАВЛЕНИЯ
Ergonomics. Design and application of speech technology tests. Methodology for determining quality indicators of recognition of voice control commands
ОКС 35.240.99
Дата введения 2022-03-01
1 РАЗРАБОТАН Федеральным государственным унитарным предприятием "Научно-исследовательский институт "Квант" ("ФГУП "НИИ "Квант")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 25 ноября 2021 г. N 1582-ст
4 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
1.1 В настоящем стандарте установлены методика определения показателей качества распознавания голосовых команд, перечень основных параметров и методы их оценки для определения качества работы систем распознавания голосовых команд управления. Данная методика определяет виды испытаний и последовательность их проведения.
1.2 Настоящий стандарт распространяется на системы распознавания голосовых команд управления.
1.3 Оценки, установленные настоящим стандартом, могут быть получены в автоматизированном (программном) режиме и использованы для сравнения различных систем распознавания голосовых команд управления, а также для формирования рекомендаций по их совершенствованию.
В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 голосовая команда: Речевое сообщение, которое может быть распознано в качестве команды для функционального устройства.
2.2 словарь (системы распознавания голосовых команд управления): Перечень всех неповторяющихся команд системы распознавания голосовых команд управления.
2.3 грамматика (системы распознавания голосовых команд управления): Набор правил, заданный в определенном формате, определяющий структуру возможных команд в виде линейного перечисления слов или словосочетаний с возможностью подстановки переменных значений.
2.4 результат распознавания: Ответ от системы распознавания команд голосового управления в виде текстового представления распознанной команды и при наличии соответствующего ему значения достоверности.
2.5 достоверность: Один из выходных параметров системы распознавания голосовых команд управления, который представляет собой число в диапазоне от 0 до 1, характеризующее апостериорную оценку соответствия голосовой команды ответу от системы распознавания.
2.6 ложный отказ: Тип ошибки, при которой результат распознавания голосовой команды из словаря содержит истинное значение голосовой команды при значении достоверности, не превышающем заданное пороговое значение, либо результат распознавания не содержит ни одной команды, приведенной в словаре.
2.7 ложное срабатывание: Тип ошибки, при которой результат распознавания голосовой команды, отсутствующей в словаре, содержит значение достоверности, превышающее заданное пороговое значение.
2.8 ошибка спутывания: Тип ошибки, при которой результат распознавания голосовой команды из словаря содержит ложное значение при значении достоверности, превышающем заданное пороговое значение.
2.9 верный результат распознавания: Результат распознавания голосовой команды из словаря, содержащий истинное значение при значении достоверности, превышающем заданное пороговое значение.
2.10 показатель реального времени распознавания: Коэффициент, который определяется как отношение времени, затраченного на распознавание голосовой команды, к длительности анализируемого аудиосигнала, содержащего произнесение данной команды.
2.11 задержка распознавания голосовой команды управления: Разность во времени между завершением произнесения команды и получением результата распознавания.
3.1 Система распознавания голосовых команд управления представляет собой программное обеспечение, реализующее функцию определения соответствия голосовой команды ее текстовому представлению.
3.2 Для решения задачи распознавания голосовых команд управления могут быть использованы системы распознавания речи двух типов: системы, позволяющие распознавать заданные последовательности элементов, и системы, позволяющие распознавать произвольные последовательности элементов. Первый тип - это системы распознавания с заданным словарем; второй тип - системы распознавания слитной речи.
3.3 Вне зависимости от типа системы распознавания голосовых команд управления должна быть обеспечена полнота словаря команд управления.
3.4 Система распознавания голосовых команд управления может обеспечивать возможность изменения словаря за счет использования внешней грамматики в формате EBNF (см. [1]).
3.5 Важными характеристиками системы распознавания голосовых команд управления являются количество ошибок, которое оценивают в соответствии с 5.4, и быстродействие, которое может быть оценено через показатель реального времени распознавания согласно 5.5.
Настоящим стандартом нормированы следующие показатели качества системы распознавания голосовых команд:
- полнота словаря команд управления;
- ошибка распознавания голосовых команд;
- показатель реального времени распознавания.
5.1.1 Все испытания проводят с использованием заданного списка команд и тестовых данных, содержание которых не должно быть использовано разработчиками при подготовке проверяемой системы распознавания голосовых команд для исключения возможности фальсификации результатов проведения оценки качества по настоящему стандарту.
5.1.2 Система проходит проверку на тестовых данных трех типов:
- тестовые данные 1 - нормальные условия (речь с нормативным произнесением, без артефактов, все команды из заданного списка команд);
- тестовые данные 2 - усложненные условия (наличие речевых артефактов, все команды из заданного списка команд);
- тестовые данные 3 - условия повышенной сложности (возможно наличие речевых артефактов, все команды отсутствуют в заданном списке команд).
Подробное описание требований к техническим и качественно-содержательным характеристикам тестовых данных приведено в приложениях А-В.
5.1.3 Тестовые данные готовят по заданному списку команд, составленному в виде простого перечисления, или на основе грамматики, подготовленной в соответствии с приложением Г.
5.1.4 Для прохождения испытаний система распознавания голосовых команд управления в качестве обязательного входного параметра должна принимать аудиофайл, формат которого определен в приложении А.
5.1.5 Для систем распознавания, имеющих возможность указания или расширения словаря через указание грамматики или иным способом, такие данные о словаре должны быть загружены до начала испытаний либо переданы в систему в качестве входного параметра в процессе испытаний.
5.1.6 Формой представления результатов распознавания голосовых команд должны быть текстовые файлы, имена которых соответствуют именам аудиофайлов из тестовых данных 1-3, описанных в приложениях А-В. Каждый текстовый файл должен состоять из двух строк, содержащих следующую информацию:
- текстовый результат распознавания;
- достоверность результата распознавания.
Для систем распознавания, не формирующих показатель достоверности, следует записывать значение 1.
При наличии показателей достоверности для каждого отдельного слова команды следует сохранять эти данные в файлах с результатами распознавания и отражать их в протоколе испытаний в виде дополнительных сведений о системе распознавания голосовых команд управления.
В приложении Д приведен пример структуры файла, содержащего результат распознавания голосовой команды управления.
5.1.7 Для корректного сравнения результатов распознавания с эталонными значениями из тестовых данных следует предварительно выполнить нормализацию текстов (преобразование чисел в числительные, расшифровка аббревиатур, учет регистра символов, знаков препинания, пробельных символов и пр.).
5.1.8 Результаты испытаний должны быть оформлены протоколом, содержащим:
- объект испытаний;
- цель испытаний;
- дату проведения испытаний;
- место проведения испытаний;
- материально-техническое обеспечение;
- условия и методику проведения испытаний;
- результаты испытаний;
- выводы и рекомендации.
Пример протокола испытаний приведен в приложении Е.
5.2.1 Испытания выполняются в полном объеме и включают в себя оценку:
- полноты словаря команд управления;
- ошибки распознавания голосовых команд управления;
- показателя реального времени распознавания.
5.2.2 Для показателя полноты словаря команд управления пороговым значением является 1, что соответствует способности системы распознавания голосовых команд достоверно распознавать все голосовые команды управления.
5.2.3 Оценку ошибки распознавания голосовых команд управления для систем распознавания слитной речи осуществляют в соответствии с 5.4.1.
5.2.4 Оценку ошибки распознавания голосовых команд управления для систем распознавания с заданным словарем осуществляют в соответствии с 5.4.2.
5.3.1 Оценку полноты словаря осуществляют на тестовых данных 1, описание которых приведено в приложении А.
5.3.2 Для оценки полноты словаря команд управления необходимо вычислить отношение количества неповторяющихся достоверно распознанных команд к общему количеству неповторяющихся заданных команд. При наличии команд, в которых присутствуют параметры, общее количество команд определяют без учета величины диапазона значений данных параметров. Таким образом, команды "измени громкость радио до 1" и "измени громкость радио до 10" учитывают как одну команду. Полным словарь считают в том случае, если отношение равно 1.
5.3.3 Результаты проверки заносят в строку "Полнота словаря голосовых команд управления" таблицы Е.1 (приложение Е). При фиксировании полного словаря, в строку таблицы заносят: "Полный словарь голосовых команд"; в противном случае: "Отсутствие полного словаря голосовых команд".
Выбор показателя, используемого для оценки ошибки распознавания голосовых команд управления, определен типом системы распознавания. При испытании системы распознавания голосовых команд управления на основе распознавания слитной речи следует применять показатель спутывания, а для системы распознавания с заданным словарем - показатель целевой функции по формуле (2) в 5.4.2. Когда результат распознавания не содержит значение достоверности, следует полагать его равным 1.
5.4.1 Методика оценки показателя ошибки распознавания голосовых команд управления для систем распознавания слитной речи
5.4.1.1 Для измерения ошибки распознавания голосовых команд используют объединенные тестовые данные 1-3.
5.4.1.2 Для получения показателя спутывания следует вычислить редакционное расстояние - метрику, определяющую разность между двумя последовательностями элементов (в данном случае - слов). Такая метрика выражается в минимальном количестве удалений, вставок и замен, необходимых для того, чтобы две последовательности элементов стали равными. В качестве последовательностей элементов используют текстовый результат распознавания, сохраненный в соответствии с 5.1.6, и текст произнесенной голосовой команды, который содержится в тестовых данных. Веса для удалений, вставок и замен принимаются равными 1, для корректных подстановок принимается вес, равный 0.