ГОСТ 7.47-84
Группа Т62
ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР
Система стандартов по информации, библиотечному и
издательскому делу
КОММУНИКАТИВНЫЙ ФОРМАТ ДЛЯ СЛОВАРЕЙ
ИНФОРМАЦИОННЫХ ЯЗЫКОВ И ТЕРМИНОЛОГИЧЕСКИХ ДАННЫХ
Содержание записи
System of standards on information, libraries and publishing.
Communicative format for vocabularies of information retrieval
languages and terminological data.
Content of records
ОКСТУ 0007
Дата введения 1985-01-01
РАЗРАБОТАН
Государственным комитетом СССР по стандартам
Государственным комитетом СССР по науке и технике
Академией наук СССР
Государственным комитетом СССР по делам изобретений и открытий
Министерством авиационной промышленности
Министерством судостроительной промышленности
ИСПОЛНИТЕЛИ
В.И.Федосимов, Г.Г.Белоногов, А.В.Веселовский, Ю.В.Сипапин, А.А.Полтев, Л.Ю.Герасимов, Э.П.Зарубин (руководители темы), В.А.Гарбарчик, В.Н.Белоозеров, Л.П.Веряскина, Н.Д.Кравченко, Е.Н.Казаков, В.С.Горбаченко, А.Б.Антопольский, Ю.Ф.Протопопов, Ю.П.Венедиктов
ВНЕСЕН Государственным комитетом СССР по стандартам
Зам. председателя В. И. Кипаренко
УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Постановлением Государственного комитета СССР по стандартам от 28 февраля 1984 г. N 707
Настоящий стандарт устанавливает коммуникативный формат записи лексической информации на магнитной ленте, в том числе содержание записи, состав и идентификацию элементов данных.
Стандарт распространяется на представление на магнитной ленте лексики словарей информационных языков, терминологических и других лексикографических источников для обмена между автоматизированными информационными системами и обязателен для органов научно-технической информации.
Обозначение настоящего коммуникативного формата ФОЛИЯ - формат обмена лексикой информационных языков.
В части представления информационно-поисковых тезаурусов стандарт следует применять совместно с ГОСТ 7.25-80.
1.1. Коммуникативный формат используют для записи на магнитной ленте информации из следующих лексикографических источников:
одноязычные информационно-поисковые тезаурусы;
многоязычные информационно-поисковые тезаурусы;
рубрикаторы (классификации) научно-технической информации (включая УДК и Рубрикатор ГАСНТИ);
списки (словари) предметных рубрик;
стандарты на термины и определения;
терминологические словари и справочники.
1.2. Коммуникативный формат предназначен только для обмена данными. Структура записей не ориентирована на информационный поиск и не обязательна к применению в качестве внутренней структуры данных в конкретных информационных системах.
1.3. Лексикографический источник представляется в формате ФОЛИЯ последовательностью записей, каждая из которых соответствует одной словарной статье источника. Основным элементом записи является заглавная лексическая единица (ЗЛЕ). Это элемент словника лексикографического источника, о котором в данной словарной статье содержится дополнительная информация.
1.4. Одна магнитная лента может содержать записи, относящиеся к одному и к нескольким источникам, причем каждый источник может быть представлен полностью или частично.
Применяя записи различного типа, можно отразить на магнитной ленте систематическую классификацию лексических единиц, вставляя между записями с терминами записи с рубриками систематического указателя источника, а также представить источники, содержащие различные виды указателей лексических единиц.
1.5. Для обеспечения синхронного ведения одинаковых или связанных источников в различных информационных системах в формате предусмотрены средства передачи изменений в лексическом составе источника.
1.6. Тип структуры данных, описываемых средствами коммуникативного формата - одноуровневое дерево с различными типами связей и возможностью группирования семантически связанных вершин. В каждой записи присутствует ЗЛЕ и другие элементы данных с указанием их роли или связи по отношению к ЗЛЕ с помощью меток элементов данных.
1.7. Если в процессе развития лексических и терминологических систем возникает потребность в установлении новых видов семантических отношений и связей, не представленных в настоящем стандарте, их добавляют регистрацией в Автоматизированной системе ведения информационных языков (АСВИЯ) ГАСНТИ.
1.8. Кодирование данных в коммуникативном формате должно соответствовать требованиям СТ СЭВ 358-76 (таблица КОИ-8), кодирование расширенного списка символов - ГОСТ 7.28-80, ГОСТ 7.29-80, ГОСТ 7.30-80. Структура элементов данных, требующих для своего представления расширения 8-битных кодов - по СТ СЭВ 360-76. Допускается применять код ДКОИ, если достаточно представления информации одними прописными буквами.
2.1. Структура записи на магнитной ленте (МЛ) должна соответствовать требованиям ГОСТ 7.14-84.
Используют вариант структуры без индикаторов и идентификаторов.
Для представления информации Макротезауруса ГАСНТИ допускается использовать варианты структуры с индикаторами и идентификаторами.
Применяют блокированные записи переменной длины с максимальной длиной блока 16000 байт.
2.2. Значения компонентов маркера записи
2.2.1. Значения позиции 5 (статус записи) - см. табл. 1.
Таблица 1
|
|
|
| Новая | Словарная статья вводится в массиве впервые |
3 | Изменяющая | Словарная статья вводится взамен ранее введенной статьи, запись которой имеет тот же идентификатор |
5 | Ликвидирующая | Запись ликвидирует ранее введенную запись с тем же идентификатором записи |
2.2.2. Значение позиции 20 маркера (длина поля "Длина поля данных") - 4.
2.2.3. Значение позиции 21 маркера (длина поля "Длина позиции начального символа") - 5.
2.2.4. Значение позиции 22 (длина поля "Длина части, определяемой при применении") - 4.
2.3. Правила идентификации значения полей данных в статье справочника.
2.3.1. Перечень устанавливаемых меток и их значения приведены в спецификации элементов данных (разд. 3). Различие семантических категорий полей данных определяет первый символ метки в соответствии с табл. 2.
2.3.2. В первых трех позициях части, определяемой при применении, помещают латинский код языка соответствующего поля данных СТ СЭВ 251-76. Если для элемента данных указание языка не имеет смысла, эти позиции заполняют пробелами.
Таблица 2
|
|
| Идентификационные данные |
1 | Заглавная лексическая единица словарной статьи |
2 | Морфологические данные |
3 | Предметно-тематическая классификация |
4 | Определения, примеры, контексты |
5 | Отношения между лексическими единицами |
6 | Иноязычные эквиваленты заглавной лексической единицы |
7 | Прочая информация |
8 | Описание источника |
9 | Резерв |
______________
* Здесь и далее для отличия от буквы О нуль обозначается знаком .
Четвертая позиция используется для указания связи между отдельными полями данных в пределах одной записи. Поля, содержащие данные, которые следует рассматривать совместно, идентифицируют одинаковыми символами в указанной позиции. В этом случае символы выбирают последовательно из ряда 1, ..., 9, А, ..., Z. Если связь между элементами данных не установлена, в указанной позиции помещают пробел.
Пример. Антенны по диапазону подразделяются на широкополосные, УКВ и др., по форме - на параболические, сферические и др.
Метка | Указатель связи | Лексическая единица | Пояснение |
- | антенны | ЗЛЕ | |
1 | диапазон | Аспект деления | |
532 | 1 | широкополосные антенны | Нижестоящее понятие в аспекте деления "диапазон" |
532 | 1 | УКВ-антенны | То же |
2 | форма | Аспект деления | |
532 | 2 | параболические антенны | Нижестоящее понятие в аспекте деления "форма" |
532 | 2 | сферические антенны | То же |
2.4. Правила записи информации в полях данных
2.4.1. Каждому элементу данных соответствует статья справочника и поле данных. Семантика и значение элемента данных, а также его отношение к ЗЛЕ определяются меткой в статье справочника. Все поля имеют переменную длину.
2.4.2. Все элементы данных в записи рассматривают по отношению к ЗЛЕ. Сгруппированные указателями связи элементы данных также рассматривают как единое целое по отношению к ЗЛЕ. Если группирование элементов данных указателями связи может вызвать неоднозначность или неясность понимания, следует приводить пояснения в сопроводительной документации.
2.4.3. Элементы данных записывают по одному в поле данных.
2.4.4. При наличии нескольких экземпляров данных одной категории каждый из них записывают в отдельном поле данных с одной и той же меткой в соответствующей каждому полю статье справочника. Допустимость повторения элементов данных указана в табл. 3.
Если применение нескольких экземпляров элементов данных с одинаковой меткой может вызвать неоднозначность или неясность понимания, следует приводить пояснения в сопроводительной документации.