ГОСТ Р 7.0.47-2008
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Система стандартов по информации, библиотечному и издательскому делу
ФОРМАТ ДЛЯ ПРЕДСТАВЛЕНИЯ НА МАШИНОЧИТАЕМЫХ НОСИТЕЛЯХ СЛОВАРЕЙ ИНФОРМАЦИОННЫХ ЯЗЫКОВ И ТЕРМИНОЛОГИЧЕСКИХ ДАННЫХ
Содержание записи
System of standards on information, librarianship and publishing. Format for representation on machine-readable media of information retrieval languages vocabularies and terminological data. Content of a record
ОКС 01.140.20
Дата введения 2009-01-01
1 РАЗРАБОТАН Всероссийским институтом научной и технической информации Российской академии наук ("ВИНИТИ РАН")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 191 "Научно-техническая информация, библиотечное и издательское дело"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 21 февраля 2008 г. N 20-ст
4 ВВЕДЕН ВПЕРВЫЕ
5 ПЕРЕИЗДАНИЕ. Январь 2019 г.
Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок -в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
Настоящий стандарт устанавливает формат записи лексикографической информации на машиночитаемых носителях, в том числе содержание записи, состав и идентификацию элементов данных.
Стандарт распространяется на представление на машиночитаемых носителях лексики словарей информационных языков, терминологических и других лексикографических источников для обмена между автоматизированными информационными системами и предназначен для органов научно-технической информации и научно-технических библиотек.
Обозначение настоящего формата: ФОЛИЯ - формат обмена лексикой информационных языков.
В части представления информационно-поисковых тезаурусов стандарт следует применять совместно с ГОСТ 7.25, в части представления рубрикаторов НТИ - совместно с ГОСТ Р 7.0.49. Представление списков ключевых слов и/или дескрипторов, являющихся поисковыми образами документов или запросов, регулируется ГОСТ 7.52.
В настоящем стандарте использованы нормативные ссылки на следующие стандарты:
ГОСТ 7.0 Система стандартов по информации, библиотечному и издательскому делу. Информационно-библиотечная деятельность, библиография. Термины и определения
ГОСТ 7.14 (ИСО 2709-96) Система стандартов по информации, библиотечному и издательскому делу. Формат для обмена информацией. Структура записи
ГОСТ 7.25 Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления
ГОСТ 7.28 (ИСО 5426-83, ИСО 5426-2-96) Система стандартов по информации, библиотечному и издательскому делу. Расширенный набор символов латинского алфавита для обмена информацией
ГОСТ 7.29 Система стандартов по информации, библиотечному и издательскому делу. Представление расширенного кириллического алфавита для обмена информацией
ГОСТ 7.30 Система стандартов по информации, библиотечному и издательскому делу. Представление греческого алфавита для обмена информацией
ГОСТ 7.52 Система стандартов по информации, библиотечному и издательскому делу. Коммуникативный формат для обмена библиографическими данными. Поисковый образ документа
ГОСТ 7.67 (ИСО 3166-1:1997) Система стандартов по информации, библиотечному и издательскому делу. Коды названий стран
ГОСТ 7.73 Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения
ГОСТ 7.74 Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения
ГОСТ 7.75 Система стандартов по информации, библиотечному и издательскому делу. Коды наименований языков
ГОСТ 27463 Системы обработки информации. 7-битные наборы кодированных символов
ГОСТ 27466 Системы обработки информации. Наборы символов в 7- и 8-битных кодах. Методы расширения кодов
ГОСТ Р 7.0.49 Система стандартов по информации, библиотечному и издательскому делу. Государственный рубрикатор научно-технической информации. Структура, правила использования и ведения
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
В настоящем стандарте применены термины по ГОСТ 7.0, ГОСТ 7.14, ГОСТ 7.73, ГОСТ 7.74.
4.1 Формат ФОЛИЯ используют для записи на машиночитаемых носителях лексических массивов из следующих лексикографических источников:
- тезаурусы одноязычные информационно-поисковые;
- тезаурусы многоязычные информационно-поисковые;
- рубрикаторы (классификаторы) научно-технической информации (включая Государственный рубрикатор научно-технической информации);
- классификации научно-технической информации, включая Универсальную десятичную классификацию (УДК), библиотечно-библиографическую классификацию (ББК);
- списки (словари) предметных рубрик;
- стандарты на термины и определения;
- словари терминологические;
- справочники терминологические.
4.2 Формат ФОЛИЯ предназначен только для обмена данными. Структуру записей формата ФОЛИЯ используют при информационном поиске, и она не обязательна к применению в качестве внутренней структуры данных в конкретных информационных системах.
4.3 Лексикографический источник представляется в формате ФОЛИЯ последовательностью записей, каждая из которых соответствует одной словарной статье источника. Основным элементом записи является заглавная лексическая единица (ЗЛЕ). Это элемент словника лексикографического источника, информация о котором содержится в данной словарной статье.
4.4 Один машиночитаемый носитель может содержать записи, относящиеся к одному и к нескольким источникам, причем каждый источник может быть представлен полностью или частично.
Применяя записи различного типа, можно отразить на носителе систематическую классификацию лексических единиц, вставляя между записями с терминами записи с рубриками систематического указателя источника, а также представить источники, содержащие различные виды указателей лексических единиц.
4.5 Для обеспечения синхронного ведения одинаковых или связанных источников в различных информационных системах в формате предусмотрены средства передачи изменений в лексическом составе источника.
4.6 Тип структуры данных, описываемых средствами формата ФОЛИЯ - одноуровневое дерево с различными типами связей и возможностью группирования семантически связанных вершин. В каждой записи присутствует ЗЛЕ, а для других элементов данных с помощью меток указаны их роли или связи по отношению к ЗЛЕ.
4.7 Если в процессе развития лексических и терминологических систем возникает потребность в установлении новых видов семантических отношений и связей, не представленных в настоящем стандарте, их добавляют регистрацией в Автоматизированной системе ведения информационных языков (АСВИЯ) при ВИНИТИ РАН как головном органе Государственной системы научно-технической информации.
4.8 Кодирование данных в обменном формате должно соответствовать требованиям ГОСТ 27463, кодирование расширенного списка символов - ГОСТ 7.28-ГОСТ 7.30. Структура элементов данных, требующих для своего представления расширения 8-битных кодов, - по ГОСТ 27466.
5.1 Структура записи на машиночитаемом носителе (МЧН) должна соответствовать требованиям ГОСТ 7.14. Используют вариант структуры без индикаторов и идентификаторов. Применяют блокированные записи переменной длины с максимальной длиной блока 16000 байт.
5.2 Значения компонентов маркера записи
5.2.1 Значения 5-й позиции маркера (статус записи) представлены в таблице 1.
Таблица 1
Значение 5-й позиции маркера | Статус записи | Пояснение |
1 | Новая | Словарная статья вводится в массиве впервые |
3 | Изменяющая | Словарная статья вводится взамен ранее введенной статьи, запись которой имеет тот же идентификатор |
5 | Ликвидирующая | Запись ликвидирует ранее введенную запись с тем же идентификатором записи |
5.2.2 Значение 20-й позиции маркера (длина поля "Длина поля данных") - 4.
5.2.3 Значение 21-й позиции маркера (длина поля "Длина позиции начального символа") - 5.
5.2.4 Значение 22-й позиции (длина поля "Длина части, определяемой при применении") - 4.
5.3 Правила идентификации значения полей данных в статье справочника
5.3.1 Перечень устанавливаемых меток и их значения приведены в спецификации элементов данных (см. раздел 6). Различие семантических категорий полей данных определяет первый символ метки в соответствии с таблицей 2.
Таблица 2
Первый символ | Вид информации |
0 | Идентификационные данные |
1 | Заглавная лексическая единица словарной статьи |
2 | Морфологические данные |
3 | Предметно-тематическая классификация |
4 | Определения, примеры, контексты |
5 | Отношения между лексическими единицами |
6 | Иноязычные эквиваленты заглавной лексической единицы |
7 | Прочая информация |
8 | Описание источника |
9 | Резерв |
5.3.2 В первых трех позициях части, определяемой при применении, помещают трехбуквенный латинский код языка соответствующего поля данных по ГОСТ 7.75. Если для элемента данных указание языка не имеет смысла, эти позиции заполняют пробелами.