ГОСТ Р 59880-2021
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Эргономика. Проектирование и применение испытаний речевых технологий
МЕТОДИКА ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ КАЧЕСТВА СИНТЕЗА РЕЧИ ПО ТЕКСТУ
Ergonomics. Design and application of speech technology tests. Methodology for determining the quality indicators of speech synthesis from text
ОКС 35.240.99
Дата введения 2022-03-01
1 РАЗРАБОТАН Федеральным государственным унитарным предприятием "Научно-исследовательский институт "Квант" ("ФГУП "НИИ "Квант")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 25 ноября 2021 г. N 1583-ст
4 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.rst.gov.ru)
Настоящий стандарт регламентирует методику определения показателей качества синтеза речи по тексту, основанную на методах измерения показателей разборчивости и естественности речи. Методика включает в себя измерение разборчивости для нормального и ускоренного темпа речи, показателя деградации разборчивости синтезированной речи, генерируемой синтезатором, и показателя естественности речи и признаков искажения естественности речи (картавость, гнусавость, помеха и др.). Дополнительно данная методика учитывает качество нормализации входного текста (преобразование чисел в числительные, расшифровка сокращений, правильность определения ударений в словах, в том числе разрешение омонимии, правильность интонационного оформления текста), а также качество управления процессом синтеза речи с помощью тегов по стандарту Speech Synthesis Markup Language.
Оценки, установленные настоящим стандартом, могут быть получены в обычном (ручном) и автоматизированном (программном) режимах. В программном режиме использована персональная электронно-вычислительная машина (ПЭВМ), что обеспечивает автоматизацию измерительных процедур (аудирование, подсчет результатов измерения, поиск аномальных измерений, оформление протоколов измерений и пр.).
1.1 Настоящий стандарт распространяется на синтез речи по тексту [синтезатор речи, преобразования "текст в речь" ("text to speech")] и устанавливает показатели качества синтеза речи и методы измерений:
- смысловой разборчивости синтезированной речи с нормальным и ускоренным темпами методом аудитивных измерений;
- интонационной разборчивости синтезированной речи с нормальным и ускоренным темпами методом аудитивных измерений;
- естественности синтезированной речи методом аудитивных измерений величины искажений естественности речи;
- качества управления синтезом речи разметкой в формате Speech Synthesis Markup Language (SSML) согласно [1];
- качества нормализации текста.
1.2 Настоящий стандарт распространяется только на синтезаторы речи по тексту класса "Информатор" и "Собеседник" в соответствии с 3.10.
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ 13107 Устройства приема и передачи речи. Методы измерения акустических шумов
ГОСТ 15150 Машины, приборы и другие технические изделия. Исполнения для различных климатических районов. Категории, условия эксплуатации, хранения и транспортирования в части воздействия климатических факторов внешней среды
ГОСТ Р 7.0.12-2011 Библиографическая запись. Сокращение слов и словосочетаний на русском языке. Общие требования и правила
ГОСТ Р 53188.1 Государственная система обеспечения единства измерений. Шумомеры. Часть 1. Технические требования
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1
разборчивость синтезированной речи: Относительное количество (в процентах) правильно синтезированных элементов (слогов, слов, фраз) артикуляционных таблиц. [ГОСТ Р 50840-95, раздел 3] |
Примечание - В настоящем стандарте с целью повышения точности оценки разборчивость синтезированной речи подразделена на два типа: смысловую разборчивость речи и интонационную разборчивость речи.
3.2 смысловая разборчивость речи: Относительное количество синтезированных фраз по заданному тексту с учетом правильной постановки ударений в словах, в том числе с учетом разрешения случаев омографии и правильности автоматической замены буквы "е" на "ё".
3.3 интонационная разборчивость речи: Относительное количество правильно синтезированных фраз по заданному тексту с учетом интонационного оформления.
Примечание - Показатель качества интонационной разборчивости не применим для синтезаторов речи класса "Информатор" (3.10).
3.4 естественность синтезированной речи: Величина, характеризующая субъективную оценку соответствия звучания синтезированной речи естественному произношению.
3.5 нормальный темп синтезированной речи: Синтез речи по тексту со скоростью приблизительно от 8 до 12 звуков в секунду.
Примечание - В целях удобства измерения скорость можно измерять в буквах в секунду. Для русского языка это будет также от 8 до 12 букв в секунду. Точность измерения в буквах в секунду является достаточной для определения класса темпа речи.
3.6 ускоренный темп синтезированной речи: Синтез речи по тексту со скоростью примерно 20 букв в секунду.
3.7 нормализация текста: Преобразование встречающихся в тексте чисел, аббревиатур, сокращений, символов, дат, времени, номеров телефонов, символов валют, иноязычных слов в соответствии с литературной нормой произнесения.
3.8 интонационное оформление синтезированной речи: Реализация в синтезированной речи интонации высказываний, соответствующей знакам препинания в тексте.
Примечание - Предложение, заканчивающееся точкой, должно оформляться интонацией завершения; предложение, заканчивающееся знаком вопроса, - вопросительной интонацией; предложение, заканчивающееся восклицательным знаком, - восклицательной интонацией; предложение, заканчивающееся многоточием или двоеточием, - интонацией незавершенности. Интонация незавершенности также должна быть реализована и в том случае, когда в тексте имеется запятая. В этом случае перед паузой (запятой) должна быть интонация незавершенности.
3.9 омография: Раздел лингвистики, изучающий одинаковые по написанию слова, имеющие различие в произношении в зависимости от контекста.
3.10 классы синтезаторов речи: Разделение синтезаторов речи по функциональности выражения интонации речи.
Примечание - В настоящем стандарте все синтезаторы речи разделены на 3 класса:
- "Информатор" - класс интонационной функциональности, который предполагает синтез речи для текста, содержащего только повествовательные предложения или вопросительные предложения;
- "Собеседник" - класс интонационной функциональности предполагает, что текст может содержать все виды предложений, включая предложения с интонацией незавершенности, интонация имеет нейтральную эмоциональную окраску.
- "Актер" - класс интонационной функциональности, который обеспечивает синтез любых видов интонации и эмоциональной окраски.
Уровень функциональности по способу выражения интонации речи увеличивается от класса "Информатор" к классу "Актер". При увеличении уровня функциональности возрастает количество критериев качества. Настоящий стандарт определяет критерии качества только для классов "Информатор" и "Собеседник".
4.1 При выполнении измерений должны быть применены измерительные системы, испытательное оборудование и средства измерений по ГОСТ Р 53188.1, ГОСТ 15150:
- программное обеспечение, выполняющее синтез речи по заданному тексту;
- динамические головные телефоны;
- шумомер по ГОСТ Р 53188.1, класс точности 3.
4.2 Для выполнения измерений допускается использование дополнительного оборудования:
- ПЭВМ;
- внешний носитель с тестами для проведения измерений.
5.1 Измерения следует проводить в нормальных климатических условиях по ГОСТ 15150.
5.2 Уровень акустического шума в помещении для испытаний должен быть не более 50 дБ (по шкале А ГОСТ 13107).
5.3 Прослушивание должно быть выполнено на головные телефоны, обеспечивающие звуковое давление не выше 79 дБ.
5.4 Измерения проводит бригада аудиторов. Аудитор должен быть в возрасте от 18 до 50 лет, не иметь явных дефектов слуха.
5.5 Размер бригады аудиторов зависит от измеряемого показателя качества.
5.6 Объем, представительность и вариативность тестового материала (число таблиц и их состав) должны быть такими, чтобы обеспечить полноту проверки объекта измерений и исключить возможность предварительной настройки синтезатора на конкретный состав тестового материала.
5.7 При повторном измерении показателя качества аудитор должен прослушивать тот тестовый материал, который он ранее не прослушивал на этапе обучения или в предыдущих измерениях.
5.8 Продолжительность одной непрерывной сессии измерений, производимой аудиторами, не должна превышать 45 мин. В сутки рекомендуется проводить не более 4 сессий, с перерывами между ними не менее 20 мин.
5.9 Результаты измерений для всех методов должны быть оформлены протоколом, содержащим следующую информацию:
- объект испытаний;
- результаты измерений.
При выполнении измерений естественности протокол должен дополнительно содержать следующую информацию:
- ширина спектра аудиосигнала: узкополосный (от 300 до 3700 Гц) или широкополосный (от 50 до 7000 Гц);
- средняя длительность синтезируемой речи: кратковременная (одно предложение, не более 10 слов), долговременная (три или более предложений, связанных общим смыслом, 20 или более слов);
- среднее значение оценки естественности для аудиозаписей, содержащих естественную речь;
- средние значения оценки естественности для аудиозаписей базовых синтезаторов (при наличии).
Рекомендуется дополнительно предоставлять следующую информацию:
- цель испытаний;
- дату и место проведения испытаний;
- условия и методику проведения испытаний;
- сведения о головных телефонах, использовавшихся для воспроизведения аудиосигнала;