БЕСПЛАТНО проверьте актуальность своей документации
с «Кодекс/Техэксперт АССИСТЕНТ»


ГОСТ Р ИСО 12620-2012

     

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов

Terminology and other language and content resources. Specification of data categories and management of a Data Category Registry for language resources



ОКС 01.020, 35.240.30

     Дата введения 2014-01-01

     

Предисловие

1 ПОДГОТОВЛЕН Закрытым акционерным обществом "Проспект" на основе собственного аутентичного перевода на русский язык стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 55 "Терминология, элементы данных и документация в бизнес-процессах и электронной торговле"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 20 ноября 2012 г. N 970-ст

4 Настоящий стандарт идентичен международному стандарту ISO 12620:2009* "Терминология, другие языковые ресурсы и ресурсы содержания. Спецификация категорий данных и ведение реестра категорий данных для языковых ресурсов" (ISO 12620:2009 "Terminology and other language and content resources - Specification of data categories and management of a Data Category Registry for language resources").

________________

* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.


При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА.

5 ВВЕДЕН ВПЕРВЫЕ


Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012** (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru).

Введение


Идентификация, сбор, администрирование и хранение данных, ассоциируемых с языковыми ресурсами, выполняются в многочисленных разнообразных средах. Элементы данных, входящие в отдельные языковые ресурсы, рассматриваются в настоящем стандарте как категории данных, согласно наименованию, общеупотребительному в Техническом комитете ИСО/ТК 37. Категории данных в терминологии стандартов ИСО/ТК 37 соответствуют концепциям элементов данных стандартов серии ИСО/МЭК 11179, но несколько отличаются от них в отношении определяемых значений. Различия в подходах, используемых для разных типов языковых ресурсов и конкретных систем различного назначения, неизбежно приводят к отличиям в определениях и именах категорий данных. Использование единообразных имен и определений категорий данных для ресурсов одной тематической области (например, для терминологических ресурсов, лексикографических ресурсов, текстовых аннотаций и т.д.) по крайней мере на уровне обмена, способствует согласованности систем и расширяет возможности повторного использования данных. Процедуры определения категорий данных в конкретной тематической области также должны быть единообразными для обеспечения функциональной совместимости категорий данных, которая становится проблематичной, если эти категории данных определяются в разных реестрах.

     1 Область применения


В настоящем стандарте приведены руководящие указания относительно ограничений реализации реестра категорий данных (DCR) для любых типов языковых ресурсов, например, терминологических, лексикографических, основанных на использовании сборников или машинного перевода и т.д. В настоящем стандарте определены механизмы создания, выбора и ведения категорий данных, а также формат обмена для представления этих категорий.

     2 Нормативные ссылки


В настоящем стандарте использованы нормативные ссылки на международные стандарты*. В случае ссылок на стандарты, для которых указана дата утверждения, необходимо пользоваться только указанной редакцией. В случае, когда дата утверждения не приведена, следует пользоваться последней редакцией ссылочных стандартов, включая любые поправки и изменения к ним:

________________

* Таблицу соответствия национальных стандартов международным см. по ссылке. - Примечание изготовителя базы данных.

ИСО 8601:2004 Элементы данных и форматы обмена. Обмен информацией. Представление дат и времени (ISO 8601:2004, Data elements and interchange formats - Information interchange - Representation of dates and times)

ИСО/МЭК 11179-1:2004 Информационные технологии. Реестры метаданных (MDR). Часть 1. Структура (ISO/IEC 11179-1:2004, Information technology - Metadata registries (MDR) - Part 1: Framework)

ИСО/МЭК 11179-3:2003 Информационные технологии. Реестры метаданных (MDR). Часть 3. Метамодель системного регистра и основные признаки (ISO/IEC 11179-3:2003, Information technology - Metadata registries (MDR) - Part 3: Registry metamodel and basic attributes)

     3 Термины и определения


В настоящем документе используются термины и определения, приведенные в ИСО/МЭК 11179-1:2004, а также перечисленные ниже термины с соответствующими определениями.

3.1 Элементы данных и категории данных

3.1.1 элемент данных (data element): (применительно к языковым ресурсам) единица данных, которая в определенном контексте считается неделимой.

Примечание - В работах по терминологии отдельное поле, например, /term/ (термин), входящее в одну терминологическую запись, рассматривалось как элемент данных и конкретный пример категории данных (3.1.3).

3.1.2 элемент данных (data element; DE): (применительно к стандартам метаданных) единица данных, для которой определение, идентификация, представление и область значений установлены с помощью набора признаков.

[ИСО/МЭК 11179-1:2004, 3.3.8]

3.1.3 категория данных (data category; DC): Результат спецификации конкретного поля данных.

Пример - /part Of Speech/ (часть речи), /grammatical Gender/ (грамматический род), /grammatical Number/ (грамматическое число). Значения, которые ассоциированы с этими элементами (например, /noun/ (существительное), /verb/ (глагол), /feminine/ (женский), /plural/ (множественное) и т.д.), также являются категориями данных согласно настоящему стандарту, но значения данного типа не рассматриваются в качестве концепций элементов данных в стандартах серии ИСО/МЭК 11179.

Примечание 1 - Категория данных - это элементарный дескриптор в лингвистической структуре или схеме аннотации.

Примечание 2 - Категория данных почти соответствует, но не идентична концепции элемента данных в стандартах серии ИСО/МЭК 11179.

Примечание 3 - В текстовых вставках, например используемых в настоящем стандарте, имена категорий данных ограничены символам (косая черта) и набраны курсивом*. В некоторых реализациях вместо разделения пробелами составных слов в имени категории данных применяется слитное написание этих слов с использованием букв смешанного регистра ("camel case").

________________

* В бумажном оригинале обозначения и номера стандартов и нормативных документов приводятся обычным шрифтом, кроме отмеченного в разделе "Предисловие" знаком "**". - Примечание изготовителя базы данных.

3.1.4 концепция элемента данных (data element concept): Концепция, имеющая определение, обозначение и концептуальную область, не зависящую от какого-либо конкретного представления.

[ИСО/МЭК 11179-1:2004, 3.3.9]

3.1.5 концептуальная область (conceptual domain): Совокупность допустимых интерпретаций значений.

Примечание 1 - Адаптированное определение из ИСО/МЭК 11179-1:2004.

Примечание 2 - Интерпретации значений концептуальной области могут быть перечислены, уточнены дальнейшими ограничениями или выражены путем описания. Например, категория данных /term/ описывается своим определением и поэтому не может содержать, в частности, контекстную или грамматическую информацию, но перечисление всех значений, ассоциируемых с этой категорией данных, невозможно.

3.1.6 область значений (value domain): Совокупность допустимых значений.

[ИСО/МЭК 11179-1:2004, 3.3.38]

3.1.7 сложная категория данных (complex data category): Категория данных, имеющая концептуальную область.

3.1.8 открытая категория данных (open data category): Сложная категория данных, концептуальная область которой не ограничена перечисленным набором значений.

3.1.9 открытая концептуальная область (open conceptual domain): Концептуальная область, ассоциируемая с открытой категорией данных.

3.1.10 ограниченная категория данных (constrained data category): Сложная категория данных, концептуальная область которой не представлена перечисленным набором, а сужена ограничением языка или языков на базе конкретной схемы.

3.1.11 ограниченная концептуальная область (constrained conceptual domain): Концептуальная область, ассоциируемая с ограниченной категорией данных.

3.1.12 простая категория данных (simple data category): Категория данных, не имеющая концептуальной области.

3.1.13 замкнутая категория данных (closed data category): Сложная категория данных, концептуальная область которой ограничена набором перечисленных простых категорий данных, составляющих ее область значений.

3.1.14 замкнутая концептуальная область (closed conceptual domain): Концептуальная область, ассоциируемая с замкнутой категорией данных.

3.1.15 схема аннотации (annotation scheme): Совокупность дескрипторов, их синтаксиса, семантики и условий использования, предназначенная для описаний или интерпретации языкового ресурса.

Примечание - TEI ODD (документ "все в одном") - пример схемы аннотации.

3.2 Реестр категорий данных

3.2.1 реестр категорий данных (Data Category Registry; DCR): Совокупность категорий данных, используемая в области языковых ресурсов в качестве базы определений лингвистических схем аннотации или любых других форматов.

3.2.2 спецификация категории данных (data category specification): Совокупность признаков, полностью описывающих данную концепцию элемента данных.

Примечание - Сокращение "DCS" относится к выборке категорий данных, и его не следует путать со спецификацией категории данных.

3.2.3 выборка категорий данных (Data Category Selection; DCS): Набор категорий данных, выбранных из реестра DCR.

Примечание 1 - В выборку DCS могут входить категории данных, используемые в тематической области либо в конкретном приложении или проекте. В последнем случае в DCS могут входить категории данных из нескольких тематических областей.

Примечание 2 - Выборка DCS может быть выражена простым списком категорий данных либо представлена в форме, содержащей все соответствующие спецификации категорий данных и, следовательно, полный набор ограничений, ассоциируемых с DCS. Кроме того, она может быть выражена в обозначениях таких схем, как ХМL W3C или Relax NG, также включающих список категорий данных и ограничения на эти категории.

3.3 Компоненты спецификации категории данных

3.3.1 модель данных DCR (DCR data model): Логическое представление структуры данных и зависимостей в реестре DCR.

Примечание 1 - Модель данных DCR представляется в виде диаграммы класса UML.

Примечание 2 - Приведенное определение основано на ИСО/МЭК 11179-1:2004, в котором "модель данных" определяется как "графическое и/или лексикографическое представление данных с определением их свойств, структуры и взаимосвязей".

3.3.2 глобальная информация (Global Information; GI): Техническая или административная информация, применимая ко всей совокупности данных.

[ИСО 16642:2003, п.3.7]

Пример - Название совокупности данных или список ее редакций.

3.3.3 раздел административной информации (administration information section): Класс в спецификации категории данных, относящийся к процедурам представления на рассмотрение, регистрации, голосования и утверждения, которые выполняются для спецификаций категории данных, представляемых для включения в реестр DCR и ведения в этом реестре.

3.3.4 группа регистрации (registration group): Класс, ассоциируемый с разделом административной информации и содержащий сведения об Органе регистрации (RA), который отвечает за объект администрирования.

3.3.5 группа представления на рассмотрение (submission group): Класс, ассоциируемый с разделом административной информации и содержащий сведения о лицах или группах, которые отвечают за представление объекта администрирования на рассмотрение.

3.3.6 группа принятия решений (decision group): Класс, ассоциируемый с разделом административной информации и содержащий сведения о процедурах проверки и голосования, связанных с объектом администрирования.

3.3.7 группа ведения реестра (stewardship group): Класс, ассоциируемый с разделом административной информации и содержащий сведения о лице или группе лиц, которые отвечают за ведение объекта администрирования в реестре.

3.3.8 раздел описания (description section): Класс, относящийся к имени категории данных и к концепции элемента данных, которая документирована в спецификации категории данных.

Примечание - Определения, пояснения и замечания - примеры информации, включаемой в класс описания спецификации категории данных.

3.3.9 имя элемента данных (data element name): Класс в спецификации категории данных, в котором перечислены и распределены по категориям допустимые имена, которые можно ассоциировать с категорией данных.

3.3.10 языковой раздел (language section): Класс в спецификации категории данных, предоставляющий эквиваленты на рабочем языке для имен категорий данных и других описаний, включенных в спецификацию категории данных.

3.3.11 лингвистический раздел (linguistic section): Класс в спецификации категории данных, ограничивающий концептуальную область данного объектного языка.

3.3.12 рабочий язык (working language): Язык, используемый для описания объектов.