Статус документа
Статус документа

ГОСТ Р 53452-2009/ISO/TR 19358:2002 Эргономика. Проектирование и применение испытаний речевых технологий

Приложение А
(справочное)

Пример оценки

А.1 Управление и контроль: управляемый голосом вызов в сети GSM

________________

GSM - Global System for Mobile Communications (Глобальная система мобильной связи).


Проводится сравнение двух управляемых голосом GSM-телефонов с голосовой системой вызова номера, предназначенных для автомобиля. Для этой цели использована модель автомобиля, в которой установлена система голосового вызова для GSM-телефона. Акустическое окружение включало в себя фоновый шум с частотным спектром, имитирующим шум в салоне автомобиля. Система голосового вызова оснащена специальным микрофоном с шумоподавлением, который расположен в типичной позиции (50 см от рта испытателя). Телефонная система автомобиля подсоединена к реальной телефонной сети, которая поддерживает услугу голосового вызова. По результатам испытаний определены и сопоставлены показатели голосового ввода по исследуемым моделям GSM-телефонов с применением двух систем голосового вызова. Чтобы исключить нежелательное взаимодействие между сетью и GSM-телефоном, в испытаниях использованы два различных GSM-телефона от двух разных производителей.

________________

Система "свободные руки".


В испытаниях участвовали 20 испытателей, не имевших опыта использования систем голосового вызова. Выбор испытателей был сбалансирован с учетом пола и возраста (возраст от 18 до 60 лет).

До начала испытаний испытатели были ознакомлены с руководством пользователя сетевого оператора, предоставляющего услуги голосового вызова. Испытатели должны были читать руководство в течение 10 минут. После обучения испытателей просили выбрать пять человек среди своих знакомых. Имена этих людей использовались для управляемого голосом вызова. Преимуществом этой процедуры является то, что испытатели произносят имена без ошибок и заминок, кроме того, выборка имен является репрезентативной, поскольку соответствует реальным пользователям. Каждое испытание выполнялось в два этапа:

a) обучение системы по пяти выбранным именам в соответствии с указаниями в руководстве пользователя;

b) проведение испытаний, включающих в себя последовательное произнесение всех пяти имен в случайном порядке.

В процессе испытаний каждый испытатель использовал:

- две системы голосового вызова;

- два GSM-телефона;

- два вида автомобильного шума (80 и 110 км/ч);

- две группы по десять испытателей (мужчины, женщины).

Последовательность изменений условий испытаний подобрана таким образом (система вызова, GSM-телефон, шумовые условия), чтобы избежать привыкания испытателя при сравнении систем вызова.

В процессе испытаний фиксировались время реакции системы с момента начала вызова выбранного имени до момента соединения, а также количество и виды ошибок соединения. Процедура подсчета была основана на штрафной системе. При каждом последовательном вызове не было штрафа, если требуемое соединение удавалось после произнесения нужной команды. Если для соединения требовалось дополнительное взаимодействие с пользователем, были использованы следующие штрафные баллы: подтверждение имени - 1, удаление имени - 2, замена - 5, ошибка обучения - 15. Среднее значение штрафных баллов было вычислено для испытателя и условий испытаний.

Результаты испытаний приведены в таблице А.1. Основной интерес представляет сравнение показателей двух систем голосового вызова. Поскольку среднее значение штрафных баллов для системы А составило 3,1, для системы Б - 5,1, то можно сделать вывод, что система А функционирует лучше. Однако для доказательства этого был проведен дисперсионный анализ (ANOVA), позволяющий оценить значимость различий этих двух результатов. Результат дисперсионного анализа показал, что по предоставленному количеству соединений две системы значимо отличаются по количеству успешных соединений с вероятностью ошибочного решения 0,03.

Следующим показателем функционирования системы является время полного соединения. Среднее время соединения составило 27,7 и 17,4 с для систем А и Б соответственно. Исследование ANOVA показало, что эта разница является существенной с вероятностью ошибочного решения 0,001. Таким образом, по этому показателю система Б работает лучше.

Кроме того, было исследовано влияние на работу системы всех независимых переменных (пол испытателя, комплект GSM и уровень шума). Эти исследования не приведены в настоящем стандарте.

Таблица А.1 - Время соединения и показатель ошибок соединения управляемого голосом вызова для двух систем

Система

Пол испытателя

Устройство GSM

Уровень шума

Время соединения, с

Средний штрафной балл

Уровень значимости (значение )

А

-

-

-

24,7

3,1

0,03

Б

-

-

-

17,4

5,1

-

мужской

-

-

19,9

3,3

0,08

-

женский

-

-

22,2

4,9

-

-

А

-

21,2

4,0

0,84

-

-

Б

-

20,9

4,2

-

-

-

80 км/ч

20,6

3,5

0,07

-

-

-

110 км/ч

21,4

4,7

А.2 Диктовка. Многоязычное сравнение системы речевого ввода текста

Данный пример касается сравнения системы речевого ввода текста для применений с большим словарем и для отдельных слов. Система разработана для пяти языков (немецкий, испанский, итальянский, французский и английский). Испытания проводились изготовителем. Результаты опубликованы в открытой печати.

Исследуемые системы речевого ввода текста состояли из одинакового базового программного обеспечения, но различных словарей и языковых моделей. Всегда сложно сравнивать системы, основанные на различных языках, так как связанными с языком переменными сложно управлять. Особенности языка и различные обучающие материалы могут влиять на показатели системы.

При испытаниях системы был использован один и тот же текст, переведенный на пять различных языков. Дополнительно был включен раздел из руководства пользователя системы речевого ввода текста.