ГОСТ 7.25-80
(СТ СЭВ-174-85)
Группа Г62*
_________________
* Ошибка оригинала.
Следует читать Группа Т62.
- Примечание изготовителя базы данных.
ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР
Система стандартов по информации, библиотечному и издательскому делу
ТЕЗАУРУС ИНФОРМАЦИОННО-ПОИСКОВЫЙ ОДНОЯЗЫЧНЫЙ
Правила разработки, структура, состав и форма представления
System of standards on information, librarianship and publishing.
Monolingual thesaurus for information retrieval.
Rules for development, structure, composition and form of presentation
Дата введения 1982-01-01
УТВЕРЖДЕН постановлением Государственного комитета СССР по стандартам от 31 декабря 1980 г. N 6340
ПЕРЕИЗДАНИЕ (февраль 1988 г.) с Изменением N 1, утвержденным в декабре 1986 г. (ИУС 3-87).
Настоящий стандарт устанавливает правила разработки, структуру, состав и форму представления информационно-поисковых тезаурусов (ИПТ), ориентированных на использование лексики русского языка и разрабатываемых в рамках автоматизированных систем научно-технической информации.
Стандарт содержит все требования СТ СЭВ 174-85.
В стандарт дополнительно включены требования к форме лексических единиц на русском языке и к взаимодействию с ГАСНТИ (см. приложение 2).
1.1. Одноязычный информационно-поисковый тезаурус - контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов.
Целью создания ИПТ является повышение показателей качества поиска информации в автоматизированных информационно-поисковых системах.
1.2. Лексическая единица (ЛЕ) ИПТ - выбранное для использования в ИПТ слово, словосочетание или значимая компонента сложного слова естественного языка.
(Измененная редакция, Изм. № 1).
1.3. Дескриптор - лексическая единица ИПТ, предназначенная для использования в поисковых образах документов и/или запросов.
1.4. Аскриптор (недескриптор) - лексическая единица ИПТ, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.
1.5. ИПТ подразделяют на два типа:
1 - тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;
2 - тезаурусы, все лексические единицы которых являются дескрипторами.
2.1. Построение ИПТ состоит из следующих этапов:
определение тематического охвата ИПТ;
сбор массива лексических единиц (ЛЕ);
формирование словника ИПТ;
построение словарных статей и указателей;
оформление ИПТ;
экспертиза и регистрация ИПТ.
2.2. Определение тематического охвата ИПТ
Определение тематического охвата ИПТ осуществляется на основе Рубрикатора ГАСНТИ путем анализа информационной потребности абонентов (потребителей). При анализе состава имеющегося или проектируемого информационного фонда и информационных потребностей абонентов отмечаются все рубрики нижнего уровня Рубрикатора, по которым производится комплектование фондов или соответствующие запросам абонентов.
2.3. Сбор массива лексических единиц
До начала работ по сбору массива лексических единиц разработчик должен обратиться в центральную службу Автоматизированной системы ведения информационных языков (АСВИЯ) с целью определения наличия зарегистрированных тезаурусов по заданной тематике.
При наличии таких тезаурусов производится оценка возможности внедрения их в данной системе.
Если в АСВИЯ отсутствуют тезаурусы по данной тематике или экспертом АСВИЯ будет признана невозможность внедрения имеющихся тезаурусов в данной системе, разработчик производит сбор лексики и дальнейшие процедуры по созданию тезауруса.
Первоначальный сбор лексики осуществляется выделением лексических единиц (ЛЕ) из представительной коллекции документов и/или запросов.
В полученный массив ЛЕ дополнительно должны быть включены соответствующие тематике лексические единицы, выделенные в соответствии с методикой построения данного тезауруса из следующих источников:
Рубрикатора ГАСНТИ;
рубрикатора соответствующей АСНТИ;
энциклопедических, толковых и терминологических словарей и справочников;
терминологических стандартов;
классификаторов технико-экономической информации;
таблиц УДК, МКИ и других систем классификации.
Наименования стран и других географических единиц должны соответствовать требованиям СТ СЭВ 251-76, наименования языков - требованиям СТ СЭВ 252-76.
2.4. Формирование словника ИПТ
2.4.1. В словник ИПТ могут быть включены следующие типы лексических единиц:
одиночные слова (существительные, прилагательные, глаголы, наречия);
именные словосочетания;
лексически значимые компоненты сложных слов;
аббревиатуры;
сокращения слов и словосочетаний.
2.4.2. Словосочетания могут включаться в словник, если в качестве опорного слова содержат существительное, и выполнено одно из следующих условий:
значение словосочетания не выводится из значений его компонентов, например:
ЧЕРНЫЙ ЯЩИК
АБСОЛЮТНО ЧЕРНОЕ ТЕЛО
ЦАРСКАЯ ВОДКА;
хотя бы один из компонентов словосочетания не употребляется в составе других сочетаний или употребляется всегда в другом смысле, например:
ТОРГОВЛЯ НА ВЫНОС
ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ;
для данного словосочетания в словнике ИПТ существуют полные синонимы, например:
НАТРИЯ ХЛОРИД = ПОВАРЕННАЯ СОЛЬ;
данное словосочетание является устойчивым словосочетанием с именем собственным, например:
ТАБЛИЦА МЕНДЕЛЕЕВА
ЗАКОН БОЙЛЯ-МАРИОТТА;
отдельные слова словосочетания имеют слишком широкое значение, например, слово МАШИНЫ в словосочетаниях:
СТРОИТЕЛЬНЫЕ МАШИНЫ
ЭЛЕКТРИЧЕСКИЕ МАШИНЫ;
для данного словосочетания в словнике ИПТ существует общепринятая аббревиатура, как например:
ПОВЕРХНОСТНО АКТИВНЫЕ ВЕЩЕСТВА = ПАВ
УНИВЕРСАЛЬНАЯ ДЕСЯТИЧНАЯ КЛАССИФИКАЦИЯ = УДК
ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС = ИПТ
ЭЛЕКТРОННО-ВЫЧИСЛИТЕЛЬНАЯ МАШИНА = ЭВМ;
разбиение словосочетаний на отдельные компоненты приводит к потере важных для поиска семантических связей, например, разбиение ЛЕ "ЯЗЫК ПРОГРАММИРОВАНИЯ" не позволило бы установить связи с такими ЛЕ как "АЛГОЛ", "КОБОЛ", "ФОРТРАН" и др.
Словосочетания, не удовлетворяющие указанным требованиям, следует разбивать на компоненты.
(Измененная редакция, Изм. № 1).
2.4.3. Падежные формы одиночных существительных следует заменять формой именительного падежа. Падежные формы опорных существительных в словосочетаниях также заменяются формой именительного падежа с одновременным изменением надежной формы согласованных определений.
2.4.4. Формы прилагательных и причастий следует приводить к именительному падежу. Прилагательные и причастия в единственном числе приводятся к форме мужского рода.
2.4.5. Глаголы рекомендуется заменять отглагольными существительными. Глаголы, включенные в словник, приводят к форме инфинитива.
2.4.6. Компоненты сложных слов, включаемые в словник ИПТ, должны быть широко употребляющимися частями сложных слов, общепринятых в языке данной специальности. Отсутствующая компонента сложного слова заменяется дефисом, например:
ЭЛЕКТРО-
ГИДРО-
ВОДО-
ТЕРМО-
(Измененная редакция, Изм. № 1).
2.4.7. При наличии аббревиатур в словник должны включаться также соответствующие им полные формы.
Пример: ИПТ - ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС,
ОКГ - ОПТИЧЕСКИЙ КВАНТОВЫЙ ГЕНЕРАТОР,
УКВ - УЛЬТРАКОРОТКОВОЛНОВЫЙ.
2.4.8. Сокращения должны соответствовать требованиям ГОСТ 7.12-77.
2.4.9. Исключения из правил п. 2.4 возможны только в тех случаях, когда требуемая каноническая форма отсутствует.
| Обозна- чение на русском языке | Допустимое символьное обозначение | Значение ссылки | Аналог на английском языке |
1. Ссылка от аскриптора к эквивалентному дескриптору | см | = | смотри | USE |
2. Ссылка от дескриптора к эквивалентному аскриптору | с | синоним | UF (used for) | |
3. Ссылка от аскриптора к нескольким альтернативно заменяющим его дескрипторам | иа | = : | используй альтернативно | - |
4. Ссылка от аскриптора к заменяющей его комбинации дескрипторов | ик | = + | используй комбинацию | - |
5. Ссылка от дескриптора к вышестоящему дескриптору | в | < | выше | BT (broader term) |
6. Ссылка от дескриптора к вышестоящему родовому дескриптору | вр | < G | выше-род | ВТG (broader term generic) |
7. Ссылка от дескриптора к вышестоящему дескриптору, обозначающему целое | вц | < P | выше-целое | ВТP (broader term partitive) |
8. Ссылка от дескриптора к нижестоящему дескриптору | н | > | ниже | NT (narrower term) |
9. Ссылка от дескриптора к нижестоящему видовому дескриптору | нв | > G | ниже-вид | NTG (narrower term generic) |
10. Ссылка от дескриптора к нижестоящему дескриптору, обозначающему часть | нч | > Р | ниже-часть | NTP (narrower term partitive) |
11. Ссылка от дескриптора к ассоциативно связанному дескриптору | а | - | ассоциация | RT (related term) |
12. Ссылка от дескриптора к аскриптору, который заменяется данным дескриптором при альтернативном выборе (обратная ссылка к "иа") | са | : = | сравни альтерна- тивный выбор | - |
13. Ссылка от дескриптора к аскриптору, который заменяется комбинацией, включающей данный дескриптор (обратная ссылка к "ик") | ск | + = | сравни комбинацию | - |
14. Техническая обратная ссылка | ср | : | сравни | - |