Статус документа
Статус документа

ГОСТ Р 7.0.47-2008 СИБИД. Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи

     4 Общие положения

4.1 Формат ФОЛИЯ используют для записи на машиночитаемых носителях лексических массивов из следующих лексикографических источников:

- тезаурусы одноязычные информационно-поисковые;

- тезаурусы многоязычные информационно-поисковые;

- рубрикаторы (классификаторы) научно-технической информации (включая Государственный рубрикатор научно-технической информации);

- классификации научно-технической информации, включая Универсальную десятичную классификацию (УДК), библиотечно-библиографическую классификацию (ББК);

- списки (словари) предметных рубрик;

- стандарты на термины и определения;

- словари терминологические;

- справочники терминологические.

4.2 Формат ФОЛИЯ предназначен только для обмена данными. Структуру записей формата ФОЛИЯ используют при информационном поиске, и она не обязательна к применению в качестве внутренней структуры данных в конкретных информационных системах.

4.3 Лексикографический источник представляется в формате ФОЛИЯ последовательностью записей, каждая из которых соответствует одной словарной статье источника. Основным элементом записи является заглавная лексическая единица (ЗЛЕ). Это элемент словника лексикографического источника, информация о котором содержится в данной словарной статье.

4.4 Один машиночитаемый носитель может содержать записи, относящиеся к одному и к нескольким источникам, причем каждый источник может быть представлен полностью или частично.

Применяя записи различного типа, можно отразить на носителе систематическую классификацию лексических единиц, вставляя между записями с терминами записи с рубриками систематического указателя источника, а также представить источники, содержащие различные виды указателей лексических единиц.

4.5 Для обеспечения синхронного ведения одинаковых или связанных источников в различных информационных системах в формате предусмотрены средства передачи изменений в лексическом составе источника.

4.6 Тип структуры данных, описываемых средствами формата ФОЛИЯ - одноуровневое дерево с различными типами связей и возможностью группирования семантически связанных вершин. В каждой записи присутствует ЗЛЕ, а для других элементов данных с помощью меток указаны их роли или связи по отношению к ЗЛЕ.

4.7 Если в процессе развития лексических и терминологических систем возникает потребность в установлении новых видов семантических отношений и связей, не представленных в настоящем стандарте, их добавляют регистрацией в Автоматизированной системе ведения информационных языков (АСВИЯ) при ВИНИТИ РАН как головном органе Государственной системы научно-технической информации.

4.8 Кодирование данных в обменном формате должно соответствовать требованиям ГОСТ 27463, кодирование расширенного списка символов - ГОСТ 7.28-ГОСТ 7.30. Структура элементов данных, требующих для своего представления расширения 8-битных кодов, - по ГОСТ 27466.