4.1 Общее назначение
Основным назначением тезауруса является обеспечение того, чтобы как при индексировании, так и при поиске были выбраны в качестве отражения одного и того же понятия одни и те же термины. Для достижения этой цели в тезаурусе, во-первых, должны быть заданы все понятия, которые могут быть полезны для обеспечения поиска в данной области. Понятия представляют с помощью терминов, и для каждого понятия одно из таких возможных представлений выбирают в качестве дескриптора (см. 4.2 и 6.6). Во-вторых, тезаурус должен представлять дескрипторы таким образом, чтобы пользователь мог легко идентифицировать тот дескриптор, который ему нужен. Это достигается путем задания отношений между терминами и/или понятиями (см. разделы с 8 по 10) и путем использования этих отношений при создании структурированных указателей терминов.
При включении в системы поиска или индексирования терминов и отношений тезауруса они могут быть использованы по-разному, в частности:
- как средство расширения поиска;
- для предложения альтернативных поисковых терминов;
- для поддержки кластеризации результатов или других средств совершенствования поиска;
- для выявления типичных орфографических ошибок;
- для поддержки автоматического индексирования.
Взаимосвязь терминов, понятий и отношений иллюстрируется на модели данных в разделе 15. Из практических соображений в этой части ИСО 25964 обычно идет речь о "терминах". Но никогда не следует забывать, что целью манипулирования терминами является поддержка поиска обозначаемых ими понятий.
4.2 Словарный контроль и его назначение
Процесс принятия решения о предоставлении термину права представлять определенное понятие не всегда является однозначно простым, поскольку понятие часто может быть выражено не одним способом. Более того, в обычном словоупотреблении некоторые термины могут иметь более одного значения. Поэтому словарный контроль является существенным моментом, и тезаурусы применяют для обеспечения однозначности путем использования следующих двух принципиально важных приемов.
а) Сферу применения понятий и терминов намеренно ограничивают предписанными значениями. В отличие от терминов таких словарей, в которых слова даются в сопровождении целого ряда различных определений, отражающих нормативное использование, каждый термин в тезаурусе, как правило, бывает привязан к тому или иному единственному значению, которое наиболее эффективно отражает потребности поисковой системы. Структура тезауруса, особенно представление в указателе иерархических отношений, часто указывает на нужное значение термина. Если это ограничение не достаточно очевидно, термин должен быть снабжен лексическим примечанием. Это примечание должно уточнить значение выбранного термина и может также указывать на другие значения, известные в естественном языке, которые были сознательно исключены для целей информационного поиска.
б) Если в одном и том же языке одно и то же понятие может быть выражено двумя или более синонимами или квазисинонимами, то в качестве дескриптора, как правило, выбирают один из этих терминов, который затем последовательно используют в качестве дескриптора в процессе индексирования как главный или единственный термин, выражающий соответствующее понятие. При этом от любого синонима, который может понадобиться пользователю при обращении к тезаурусу, должна быть дана ссылка на заменяющий его дескриптор.
При осуществлении словарного контроля одним из последствий использования мер, описанных в перечислениях а) и b) является то, что полученные выражения могут не соответствовать. Тезаурус играет важную роль в посредничестве между терминами, используемыми в обычном словоупотреблении, и теми терминами, которые эффективно функционируют в процессе поиска информации. Для достижения эффективности поиска пользователи должны использовать с определенной степенью искусственности контрольного словаря (хотя в некоторых системах эта трудность может быть преодолена за счет автоматической замены термина пользователя дескриптором).
Для того чтобы тезаурус мог эффективно функционировать в многоязычном контексте, включаемые понятия должны быть представлены во всех используемых языках, обеспечивая доступ носителям этих языков. Если тезаурус является "симметричным", как описано в настоящем стандарте и смоделировано в разделе 15, то для каждого понятия должен существовать дескриптор в каждом из языков, и объем понятий должен быть одинаковым во всех языках. Это ограничение иногда вносит свой вклад в искусственность языка. Альтернативные подходы (например, использование метода сопоставления словарей) будут описаны в следующей версии стандарта [6].
4.3 Парадигматические и синтагматические отношения
Целью установления отношений и отображения их в указателе является указание пользователю (или специалисту, действующему от его имени) нужного направления для выбора наиболее подходящего термина, выражающего данное понятие. Это достигается путем демонстрации таких терминов, которые пользователь мог бы выбрать вместо или наряду с терминами, выбранными им изначально. Примеры приведены в разделе 12.
В любом языке между терминами индексирования, как правило, наблюдаются отношения следующих двух видов:
a) отношения, называемые синтагматическими, фиксируются в том случае, когда понятия встречаются вместе в контексте конкретного документа. Иными словами, если два или более термина индексирования приписаны одному и тому же документу, то тем самым между ними установлено синтагматическое отношение. Однако включение синтагматических отношений в тезаурус не рекомендуется.
Пример - Индексатор работы о "компьютерах в амстердамских банках" может выделить три понятия, выражаемые, соответственно, терминами "банки (финансовые учреждения)", "компьютеры" и "Амстердам". Он присвоит их этому документу. В посткоординированной системе связь между этими терминами в метаданных эксплицитно не указывается, но документ, тем не менее, может быть найден, если любой или все эти термины были использованы в качестве поисковых ключей. В предкоординированном указателе любая комбинация этих трех терминов может быть приведена вместе со ссылкой на то место, где соответствующий документ может быть найден. Понятия из данного примера в рамках обыденных отношений, как правило, никак друг с другом не связаны, поэтому их взаимосвязь должна рассматриваться как зависящая от документа.
b) парадигматическими называют отношения, которые значимы почти во всех контекстах, особенно если они внутренне присущи понятиям, которые представлены этими терминами. Наличие парадигматических отношений между тезаурусными понятиями продемонстрировать целесообразно, так как они часто ведут пользователей к понятиям, тесно связанным с теми терминами, которые пришли в голову первоначально.
Пример - Независимо от темы индексируемого документа понятия из предыдущего примера имеют такие сущностные связи: "банки (финансовые учреждения)" с более широким понятием "финансовые институты"; "компьютеры" устойчиво ассоциируют связь с понятием "обработка данных", а понятие "Амстердам" неразрывно связано с понятием "Нидерланды". Найдя в словаре любой из этих связанных между собой терминов, пользователь может быть заинтересован в информации, заиндексированной с помощью связанного термина. Такие парадигматические отношения не зависят от какого-либо конкретного документа. Они, как правило, распознаются и могут быть установлены благодаря ссылке на такие обычные издания как словари и энциклопедии.
Различие между этими двумя видами отношений может быть отображено так, как показано на рисунке 1.
Рисунок 1 - Парадигматические и синтагматические отношения
4.4 Типы парадигматических отношений
Устанавливают и четко разграничивают три типа парадигматических отношений между терминами (а), либо между понятиями (b) и (с):