Статус документа
Статус документа

ГОСТ Р ИСО 30042-2016

     

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

СИСТЕМЫ УПРАВЛЕНИЯ ТЕРМИНОЛОГИЕЙ, БАЗАМИ ЗНАНИЙ И КОНТЕНТОМ

Обмен терминологическими базами [TermBase eXchange (ТВХ)]

Systems to manage terminology, knowledge and content. TermBase eXchange (TBX)

     

ОКС 01.020
         35.240.60

Дата введения 2017-09-01

     

Предисловие

1 ПОДГОТОВЛЕН Автономной некоммерческой организацией "Институт безопасности труда" (АНО "ИБТ") на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 55 "Терминология, элементы данных и документация в бизнес-процессах и электронной торговле"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 30 ноября 2016 г. N 1906-ст

4 Настоящий стандарт идентичен международному стандарту ИСО 30042:2008* "Системы для управления терминологией, знаниями и содержанием. Обмен терминологическими базами [TermBase exchange (ТВХ)]" [ISO 30042:2008 "Systems to manage terminology, knowledge and content - TermBase exchange (TBX)", IDT].

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.


При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты, сведения о которых приведены в дополнительном приложении ДА

5 ВВЕДЕН ВПЕРВЫЕ

6 ПЕРЕИЗДАНИЕ. Апрель 2020 г.


Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

Введение


Настоящий стандарт определяет основанную на XML структуру представления структурированных терминологических данных, называемых обменом терминологическими базами [TermBase (ТВХ)]. В пределах этой структуры может быть определено множество терминологических языков разметки (TMLs). TML, определенный ТВХ, может облегчить обмен терминологическими данными между пользователями, переводчиками и писателями, использующими инструменты распознавания текста и компьютерного перевода, а также программное обеспечение для авторинга. TML может быть ориентирован как на пользователя, так и на машины - ориентирование на терминологические данные. Таким образом, это может позволить использовать поток терминологической информации всюду по информационному производственному циклу, как внутри организации, так и с внешними поставщиками услуг.

Целевая аудитория этого документа состоит из двух групп: 1) программисты и аналитики, которые хотят развить приложения и которые обрабатывают ТВХ-послушные файлы с данными; 2) терминологи и другие языковые специалисты, которые хотят проанализировать терминологический сбор данных для представления в ТВХ или понять файл ТВХ.

Эта версия ТВХ представляет собой обновление версии, которая была издана Ассоциацией локализации отраслевых стандартов [Localization Industry Standards Association (LISA)] в 2002 г. Среди других улучшений текущая версия обеспечивает ссылку на интегрированную схему, которая включает модуль основной структуры и ограничения категории данных в объединенных декларациях, используя языки Relax NG и Schematron. Данная версия обеспечивает также ссылку на ТВХ, совместимый c TML, под названием TBX-Basic.

Пользователям настоящего стандарта необходимо сначала изучить его содержание (разделы 1-12). Предложенное использование приложений А-I описано ниже.

1) Модуль основной структуры ТВХ

Все TMLs в рамках структуры ТВХ имеют одинаковую основную структуру. Модуль основной структуры описан в разделе 8. DTD для модуля основной структуры описаны в приложении А. Элементы, признаки и типы данных описаны в приложении D и перечислены в алфавитном порядке в приложении I.

2) Модуль XCS

TMLs могут отличаться относительно того, какие категории данных разрешены и на каких уровнях терминологического входа эти категории данных могут произойти. Эти ограничения на основную структуру, которые определяют особый TML, формально представлены в файле XCS. DTD для модуля XCS описана в приложении В. Элементы и признаки описаны в приложении Е и перечислены в алфавитном порядке в приложении I.

3) Принимаемый по умолчанию XCS ТВХ

ТВХ, принимаемый по умолчанию TML, ограничен принимаемым по умолчанию файлом XCS. Принимаемый по умолчанию ТВХ XCS описан в разделе 9. Принимаемый по умолчанию XCS представлен в приложении С. Категории данных описаны в приложении D и перечислены в алфавитном порядке в приложении I.

4) Проверка соблюдения случаев документа ТВХ

После ТВХ TML определена с помощью XCS, экземпляр ТВХ-документа может быть проверен на соответствие этому TML. Требования для соблюдения находятся в разделе 7. Можно использовать множество методов и схемы определения языков, чтобы проверить соответствие. В частности, Relax NG, упомянутый в приложении F, может использоваться, чтобы проверить, совместим ли случай документа ТВХ с ТВХ, принимаемым по умолчанию TML. В приложении F также указано, где пользователь ТВХ может найти дополнительные ресурсы для проверки соблюдения. Другой ТВХ TML, названный ТВХ-основным, упомянут в приложении G.

5) Изменения, которые были внесены в ТВХ, начиная с его представления ISO в феврале 2007 г., приведены в приложении Н.

Резюме приложений:

A: DTD для модуля основной структуры

В: DTD для модуля XCS

С: XCS по умолчанию, который определяет ТВХ по умолчанию TML

D: Описания основных элементов структуры и ее признаков

Е: Описания элементов XCS и ее признаков

F: Relax NG и другие ресурсы для соблюдения соответствия

G: Ссылка на TBX-Basic

Н: Резюме изменений ТВХ

I: Индексы (алфавитные списки элементов и категорий данных)

     1 Область применения


Настоящий стандарт определяет структуру ТВХ, разработанную для поддержки различных типов обработки терминологических данных, включая анализ, описательное представление, распространение и обмен в различных информационных средах. Основная цель ТВХ - обмен терминологическими данными. Области применения по назначению включают перевод и создание.

ТВХ является модульный системой поддержки переменных типов терминологических данных или категорий данных, которые включены в различные терминологические базы данных (терминологические базы). ТВХ включает в себя два XML-модуля: основная структура и форма для идентификации ряда категорий данных и их ограничений. Термин в ТВХ относится к структуре, состоящей из этих двух взаимодействующих модулей.

ТВХ позволяет максимизировать совместимость фактических терминологических данных, а также обеспечить набор категорий данных, которые используются в терминологических базах данных. Подмножества или супернаборы категорий данных по умолчанию могут использоваться в пределах структуры ТВХ, чтобы поддержать определенные пользовательские требования.

     2 Нормативные ссылки


В настоящем стандарте использованы нормативные ссылки на следующие стандарты. Для датированных ссылок применяют только указанное издание ссылочного стандарта, для недатированных - последнее издание (включая все изменения).

ISO 639-1:2002, Codes for the representation of names of languages - Part 1: Alpha-2 code (Коды для представления названий языков. Часть 1. Двухбуквенный код)

ISO 639-2:1998, Codes for the representation of names of languages - Part 2: Alpha-3 code (Коды для представления названий языков. Часть 2. Трехбуквенный код)

ISO 639-3:2007, Codes for the representation of names of languages - Part 3: Alpha-3 code for comprehensive coverage of languages (Коды для представления названий языков. Часть 3. Код альфа-3 для всестороннего охвата языков)

ISO/IEC 646:1991, Information technology - ISO 7-bit coded character set for information interchange (Информационные технологии. Набор ISO 7-битовых кодированных знаков для обмена информацией)

ISO 3166-1:2006, Codes for the representation of names of countries and their subdivisions - Part 1: Country codes (Коды для представления названий стран и единиц их административно-территориального деления. Часть 1. Коды стран)

________________

Заменен на ISO 3166-1:2013.


ISO 8601:2004, Data elements and interchange formats - Information interchange - Representation of dates and times (Элементы данных и форматы для обмена информацией. Обмен информацией. Представление дат и времени)

________________

Заменен на ISO 8601-1:2019, ISO 8601-2:2019.


ISO/IEC 10646, Information technology - Universal Multi-Octet Coded Character Set (UCS) [Информационная технология. Универсальный набор кодированных символов (UCS)]

ISO 12200:1999, Computer applications in terminology - Machine-readable terminology interchange format (MARTIF) - Negotiated interchange

________________

Отменен.


ISO 12620, Computer applications in terminology - Data categories (Применение компьютеров в терминологии. Машинно-считываемый формат обмена терминологией. Согласованный обмен)

ISO 16642:2003, Computer applications in terminology - Terminological markup framework (Применение компьютера в терминологических целях. Структура терминологической разметки)

________________

Заменен на ISO 16642:2017.

     3 Термины и определения


В настоящем стандарте применены следующие термины с соответствующими определениями:

3.1 анализ (analysis): Идентификация элементов и структура терминологического сбора данных.

3.2 затемнение (blindness): Cобственность формата данных, указывающего на степень, до которой данные достаточно определены, что делает ненужным для импортера устанавливать контакт с создателем данных для того, чтобы интерпретировать их.

Примечание - Термин "затемнение" возникает в технической фразе "передача без подтверждения приема", которая относится к передаче данных, где нет необходимости "видеть", кто отправитель данных, чтобы интерпретировать его. В терминологии понятие затемнения часто используется в контексте слепого обмена (3.3).

3.3 слепой обмен (blind interchange): Cпособность получить файл терминологии и объединить его в целевую систему, такую как машинный инструмент перевода [Computer-Assisted Translation (CAT)], не имея необходимости связываться с создателем файла, чтобы понять его содержание.

Примечание - Обмен, который является совершенно слепым, не требует никакой связи между отправителем и управляющим данными. Из-за различий между терминологическими сборами данных и форматами повышения совершенно слепой обмен редок. Как правило, некоторые данные в сборе данных слепые (может быть обмен без потери и без связи между сторонами), а некоторые данные требуют связи между сторонами, чтобы быть обмененными.

3.4 дополнительная информация; CI (complementary information): Информация, дополнительная к изложенной в терминологических записях и разделенная через терминологический сбор данных.

[ИСО 16642:2003]

Примечание - В случае документа ТВХ дополнительная информация содержится в аппарате.

3.5 модуль основной структуры (core-structure module): Спецификация XML элементов и признаков, которые разрешены в файле TВХ.

Примечание - Модуль основной структуры определен в DTD, которая используется в тандеме с файлом XCS, который применяет дополнительные ограничения категории данных. Это может также использоваться, чтобы произвести интегрированную схему, такую как "понижение схемы" NG [ИСО 19757-2], которая определяет и модуль основной структуры, и ограничения категории данных в одном файле. См. также ограничение категории данных (3.7).

3.6 категория данных (data-category): Результат спецификации данного поля данных.

[ИСО 1087-2:2000]

Пример - /часть речи/, /грамматическое число/.

Примечание 1 - Набор по умолчанию категорий данных для TВХ был прежде всего отобран из ИСО 12620:1999.

Примечание 2 - В бегущем тексте названия категории данных установлены от использования передовых разрезов и курсива. В случае документа ТВХ случай верблюда (например, <termNote type="partOfSpeech">noun</termNote>) должен использоваться вместо того, чтобы использовать белое пространство между словами.

3.7 ограничение категории данных (data-category constraint): Спецификация ценности признака, содержания элемента одного или более структурных уровней, который ограничивает применение категории метаданных (3.17).

Примечание - Ограничения категории данных определены в файле XCS и используются в тандеме с DTD, который определяет модуль основной структуры. Они могут также быть включены в интегрированную схему, такую как "понижение схемы" NG, которая включает и модуль основной структуры, и ограничения категории данных в один файл. См. также модуль основной структуры (3.5).

Доступ к полной версии документа ограничен
Полный текст этого документа доступен на портале с 20 до 24 часов по московскому времени 7 дней в неделю.
Также этот документ или информация о нем всегда доступны в профессиональных справочных системах «Техэксперт» и «Кодекс».