ГОСТ Р 52873-2021
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
КОМПЛЕКСЫ ЭЛЕКТРОННО-ЦИФРОВЫЕ ИНТЕРАКТИВНЫЕ, РАССЧИТАННЫЕ НА ИСПОЛЬЗОВАНИЕ ЛЮДЬМИ С ИНВАЛИДНОСТЬЮ И ДРУГИМИ ОГРАНИЧЕНИЯМИ ЖИЗНЕДЕЯТЕЛЬНОСТИ. СИСТЕМЫ ВЫВОДА ТЕКСТОВОЙ ИНФОРМАЦИИ В ФОРМЕ СИНТЕЗИРОВАННОЙ РЕЧИ
Технические требования
Interactive digital systems usable by persons with disabilities. Digital information output systems in the form of syntheized speech. Technical requirements
ОКС 11.180.30
Дата введения 2022-04-01
1 РАЗРАБОТАН Федеральным государственным унитарным предприятием "Российский научно-технический центр информации по стандартизации, метрологии и оценке соответствия" (ФГУП "СТАНДАРТИНФОРМ")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 381 "Технические средства и услуги для инвалидов и других маломобильных групп населения"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 25 августа 2021 г. N 820-ст
4 ВЗАМЕН ГОСТ Р 52873-2017
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
По важности и объему воспринимаемой информации слух является второй, после зрения, системой восприятия человека, а в случае невозможности по тем или иным причинам воспользоваться зрением, роль слуха и звуковой информации резко возрастает и при взаимодействии между людьми, и при взаимодействии человека с информационными системами.
Все более широкое распространение получают электронно-цифровые интерактивные комплексы, предоставляющие информацию пользователю в виде синтезированной речи. Примерами таких комплексов являются специальное рабочее место для инвалида по зрению (ГОСТ Р 51645); персональный компьютер, смартфон или иное мобильное устройство, оснащенное программой экранного доступа и используемое людьми с нарушениями зрения в повседневной жизни; банковский терминал, оснащенный, помимо дисплея, еще и возможностью подключить аудиовоспроизводящее устройство для прослушивания информации о выполняемой транзакции; любой персональный компьютер или аналогичное по своим возможностям устройство, на котором установлены игровые, обучающие, информационные, навигационные и прочие приложения, использующие синтезированную речь для взаимодействия с пользователем; портативные и стационарные медицинские диагностические приборы с возможностью речевого вывода и многое другое.
Для целей настоящего стандарта все многообразие подобных аппаратно-программных комплексов было сведено к одной обобщенной схеме, в которую вошли аппаратно-техническая платформа, включающая все необходимые компоненты для функционирования операционной среды и прикладных программ; операционная среда (или операционная система), которая может содержать, а может и не содержать вспомогательные программные интерфейсы для поддержки синтеза речи по тексту; прикладное программное обеспечение, использующее синтез речи для взаимодействия с пользователем; система вывода текстовой информации в форме синтезированной речи или (для целей настоящего стандарта) система речевого вывода, которая предоставляет соответствующий прикладной программный интерфейс для создания синтезированной речи и вывода ее через аудиовоспроизводящее устройство, поддерживаемое аппаратно-технической платформой.
Систему речевого вывода, обозначенную в данной схеме, в свою очередь, также можно представить в виде набора взаимосвязанных функциональных модулей, одним из которых является синтезатор речи (иногда называемый "речевым движком"). Несмотря на ключевое значение синтезатора речи во всей системе речевого вывода, в настоящем стандарте особого внимания именно синтезатору речи не уделяется. Система речевого вывода рассматривается как единое целое, предоставляющее пользователю возможность получать текстовую информацию в виде звучащей синтезированной речи, параметры которой должны соответствовать настоящему стандарту. Внутренняя архитектура системы вывода текстовой информации в форме синтезированной речи, состав и структура ее модулей, принципы функционирования и методы, используемые для анализа входных текстовых данных, для синтеза звуковых данных и тому подобное, оставлено на усмотрение разработчика. Кроме того, разнообразие современных операционных платформ и их возможностей в части поддержки систем синтеза речи по тексту не позволяет ориентироваться лишь на одну из них.
Именно такой интегрированный подход и обеспечил ключевую роль понятия "система речевого вывода" вместо понятия "синтезатор речи" в настоящем стандарте.
Несмотря на то, что настоящий стандарт в первую очередь ориентирован на специально оборудованное компьютерное рабочее место, используемое людьми с инвалидностью по зрению, в том числе и как средство реабилитации, область его применения охватывает также любое прикладное программное обеспечение, взаимодействующее с пользователем с помощью системы вывода текстовой информации в форме синтезированной речи, причем речевой вывод может сочетаться с визуальным, тактильным и т.п. Примерами такого программного обеспечения могут служить программы экранного доступа, используемые людьми с нарушениями зрения на рабочем месте, в бытовых условиях и иных местах пребывания; игровые, обучающие, информационные, навигационные и прочие программы для широкого круга пользователей.
Любое торговое наименование, использованное в настоящем стандарте, является информацией, приводимой для удобства пользователей, и не является свидетельством в пользу того или иного товара.
Стандарт разработан авторским коллективом в следующем составе: юриста, сертифицированного тренера и консультанта по адаптивным информационным технологиям А.В.Зеленова, сооснователя и администратора Портала Tiflocomp (www.tiflocomp.ru), разработчика адаптивных решений А.Н.Камынина, начальника отдела социокультурных проектов и программ ГМКЦ "Интеграция" им.Н.А.Островского, представителя Российской Федерации в глобальной инициативе за инклюзивные ИКТ (G3ICT/Smart cities for all) А.Д.Попко.
Настоящий стандарт распространяется на системы речевого вывода, предназначенные для представления произвольной текстовой информации в форме синтезированной речи для широкого круга лиц, устанавливает требования и/или особенности деятельности которых предполагают постоянное или ситуационное использование звучащей (устной) речи как способа взаимодействия с человеко-ориентированной информационной системой или контроля ее работы. Примерами подобного взаимодействия могут служить:
- усиление воздействия визуальной информации при помощи речевых сообщений;
- речевое представление информации, когда отсутствуют аппаратно-программные возможности для их визуального представления;
- обеспечение пользователя информацией в ситуациях, когда невозможно использовать зрение (отсутствует освещение или зрение пользователя ослаблено в силу возраста, травмы или болезни);
- выполнение пользователем сложных манипуляций, при которых визуальный канал максимально используется для решения приоритетных задач, но другая необходимая информация воспринимается через слуховой канал (например, управление автомобилем и одновременное прослушивание сообщений навигационного устройства).
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ Р 50840-95 Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости
ГОСТ Р 51645 Рабочее место для инвалида по зрению типовое специальное компьютерное. Технические требования к оборудованию и производственной среде
ГОСТ Р 52872 Интернет-ресурсы и другая информация, представленная в электронно-цифровой форме. Приложения для стационарных и мобильных устройств, иные пользовательские интерфейсы. Требования доступности для людей с инвалидностью и других лиц с ограничениями жизнедеятельности
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку
3.1 В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1.1 вспомогательные технологии: Аппаратное и программное обеспечение, применяющееся пользователем с ограниченными возможностями здоровья отдельно или совместно с основным аппаратно-программным комплексом для обеспечения функциональности, недостижимой с помощью обычных аппаратных и программных средств.
3.1.2 высота тона: Параметр речи, соответствующий высоте основного тона синтезированной речи.
3.1.3 голос: Совокупность акустических и фонетических характеристик синтезированной речи, зависящая от используемого метода синтеза, фонетической базы синтезатора речи и воспринимаемое слушателем как уникальное звучание.
3.1.4 графическая среда: Комплекс программных средств пользовательского устройства, обеспечивающий визуальное представление элементов графического пользовательского интерфейса на видеодисплее и взаимодействие пользователя с этими элементами посредством различных устройств ввода (клавиатуры, мыши, переключателей, сенсорных панелей и других).
Примечание - Графическая среда может быть как частью конкретной операционной среды, так и кроссплатформенным программным обеспечением, способным функционировать в различных операционных средах.
3.1.5 громкость речи: Параметр речи, соответствующий уровню громкости выходного звукового сигнала системы речевого вывода.
3.1.6 импульсно-кодовая модуляция: Способ представления цифрового сигнала в виде числовых значений амплитуды (отсчетов), следующих через фиксированные интервалы времени.
Примечание - Период следования отсчетов определяется частотой дискретизации, а диапазон числовых значений - количеством двоичных разрядов (бит) в одном отсчете.
3.1.7 интерфейс прикладного программирования: Описание возможностей, которые операционная среда или прикладная программа через средства программирования предоставляет другим программам, а также требования к программному коду, использующему эти возможности.
Примечание - Интерфейс прикладного программирования часто реализуется в виде отдельной программной библиотеки или службы операционной среды.
3.1.8 интонация: Параметр речи, соответствующий просодическим характеристикам синтезированной речи.
3.1.9 качество речи: Субъективная оценка слушателем звучания синтезированной речи.
3.1.10 Международный фонетический алфавит: Фонетический алфавит для транскрибирования любого языка.
Примечание - Международный фонетический алфавит (см.[1]*) разработан и поддерживается Международной фонетической ассоциацией.
________________
* Поз. [1]-[6] см. раздел Библиография, здесь и далее по тексту. - Примечание изготовителя базы данных.
3.1.11 метаданные: Вспомогательная информация, поступающая в систему речевого вывода совместно с преобразуемым текстом.
Примечание - Метаданные, как правило, представляют собой цифровой текст, спецификация которого определена либо международным стандартом, либо разработчиком синтезатора, и содержат информацию, управляющую процессом и/или изменяющую параметры синтеза речи.
3.1.12 операционная среда: Комплекс программных средств пользовательского устройства, обеспечивающий функционирование на нем прикладных программ.
3.1.13 параметр речи: Характеристика синтезированной речи, изменяемая системой речевого вывода в зависимости от исходного текста и метаданных, а также через интерфейс прикладного программирования, предоставляемого системой речевого вывода для взаимодействия с пользовательским приложением.
3.1.14 пауза: Интервал времени между определенными частями синтезированной речи, не содержащий звука.
3.1.15 передискретизация: Обработка отсчетов исходного цифрового сигнала для получения цифрового сигнала с иной частотой дискретизации.
Примечание - Отсчеты сигнала, соответствующие новой частоте дискретизации, вычисляются по уже имеющимся отсчетам и не содержат новой информации.
3.1.16 пользовательское приложение: Прикладное программное обеспечение, взаимодействующее с пользователем, получающее, обрабатывающее входные данные и предоставляющее информацию пользователю, в том числе посредством системы речевого вывода.
3.1.17 прикладное программное обеспечение: Совокупность программных средств, выполняющих задачи, решаемые в предметной области пользователя.
3.1.18 программа экранного доступа: Пользовательское приложение, позволяющее незрячим пользователям воспринимать текстовую и иную экранную информацию посредством рельефно-точечного шрифта Брайля, синтезированной речи, вибрационных, звуковых и иных сигналов.
3.1.19 разборчивость речи: Характеристика синтезированной речи, определяющая семантически верное восприятие пользователем единиц речевой информации.
3.1.20 расширенный фонетический алфавит методов оценки речи: Система представления знаков международного фонетического алфавита с помощью набора символов 7-битного компьютерного кода ASCII.
Примечание - Система представления знаков - см. [2].
3.1.21 синтезатор речи: Компонент системы речевого вывода, преобразующий цифровой текст в синтезированную речь, передаваемую на аппаратные средства вывода звука.