Статус документа
Статус документа

ГОСТ Р 7.0.47-2008 СИБИД. Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи

     5 Способ представления лексикографической информации


5.1 Структура записи на машиночитаемом носителе (МЧН) должна соответствовать требованиям ГОСТ 7.14. Используют вариант структуры без индикаторов и идентификаторов. Применяют блокированные записи переменной длины с максимальной длиной блока 16000 байт.

5.2 Значения компонентов маркера записи

5.2.1 Значения 5-й позиции маркера (статус записи) представлены в таблице 1.


Таблица 1

Значение 5-й позиции маркера

Статус записи

Пояснение

1

Новая

Словарная статья вводится в массиве впервые

3

Изменяющая

Словарная статья вводится взамен ранее введенной статьи, запись которой имеет тот же идентификатор

5

Ликвидирующая

Запись ликвидирует ранее введенную запись с тем же идентификатором записи

5.2.2 Значение 20-й позиции маркера (длина поля "Длина поля данных") - 4.

5.2.3 Значение 21-й позиции маркера (длина поля "Длина позиции начального символа") - 5.

5.2.4 Значение 22-й позиции (длина поля "Длина части, определяемой при применении") - 4.

5.3 Правила идентификации значения полей данных в статье справочника

5.3.1 Перечень устанавливаемых меток и их значения приведены в спецификации элементов данных (см. раздел 6). Различие семантических категорий полей данных определяет первый символ метки в соответствии с таблицей 2.


Таблица 2

Первый символ

Вид информации

0

Идентификационные данные

1

Заглавная лексическая единица словарной статьи

2

Морфологические данные

3

Предметно-тематическая классификация

4

Определения, примеры, контексты

5

Отношения между лексическими единицами

6

Иноязычные эквиваленты заглавной лексической единицы

7

Прочая информация

8

Описание источника

9

Резерв

5.3.2 В первых трех позициях части, определяемой при применении, помещают трехбуквенный латинский код языка соответствующего поля данных по ГОСТ 7.75. Если для элемента данных указание языка не имеет смысла, эти позиции заполняют пробелами.

Четвертую позицию используют для указания связи между отдельными полями данных в пределах одной записи. Поля, содержащие данные, которые следует рассматривать совместно, идентифицируют одинаковыми символами в указанной позиции. В этом случае символы выбирают последовательно из ряда 1,..., 9; А,..., Z. Если связь между элементами данных не установлена, в указанной позиции оставляют пробел.

Пример

Антенны по диапазону подразделяют на широкополосные, УКВ и др., по форме - на параболические, сферические и др. Указатели связи отмечают соответствие видов антенн классификационному признаку (см. таблицу 3).


Таблица 3

Метка поля

Указатель связи

Лексическая единица

Пояснение

100

-

Антенны

ЗЛЕ

540

1

Диапазон

Аспект деления

532

1

Широкополосные антенны

Нижестоящее понятие в аспекте деления "диапазон"

532

1

УКВ-антенны

Нижестоящее понятие в аспекте деления "диапазон"

540

2

Форма

Аспект деления

532

2

Параболические антенны

Нижестоящее понятие в аспекте деления "форма"

532

2

Сферические антенны

Нижестоящее понятие в аспекте деления "форма"

5.4 Правила записи информации в полях данных

5.4.1 Каждому элементу данных соответствует статья справочника и поле данных. Семантика и значение элемента данных, а также его отношение к ЗЛЕ определяются меткой в статье справочника. Все поля имеют переменную длину.

5.4.2 Все элементы данных в записи рассматривают по отношению к ЗЛЕ. Сгруппированные указателями связи элементы данных также рассматривают как единое целое по отношению к ЗЛЕ. Если группирование элементов данных указателями связи может вызвать неоднозначность или неясность понимания, следует приводить пояснения в сопроводительной документации к файлу.

5.4.3 Элементы данных записывают по одному в поле данных.