7.1. Целью автоматизации индексирования является минимизация материальных и человеческих ресурсов, затрачиваемых на процедуру индексирования, а также достижение стабильности и единообразия ее результатов.
7.2. Автоматизированное индексирование (АИ) осуществляют по:
1) тексту первичного документа.
2) заглавию и аннотации или реферату документа;
АИ по тексту первичного документа должно включать процедуру сжатия ПОД.
7.3. С использованием вычислительной техники осуществляют следующие содержательные этапы АИ:
1) выявление информативных частей документа;
2) идентификация слов текста и приведение их к нормализованному виду (морфологический анализ и синтез);
3) формирование списка ключевых слов исходного текста;
4) подбор дескрипторов по тезаурусу;
5) формирование ПОД.
7.4. Выявление информативных частей документа
Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка указанных в п.2.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора.
7.5. Идентификация слов текста
7.5.1. Процесс идентификации слов текста должен включать: отождествление словоформ одного слова и определение информативных слов текста.
При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.
7.5.2. Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.
7.6. Формирование списка ключевых слов текста
7.6.1. В процессе формирования списка ключевых слов текста проводится синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.
7.6.2. Синтаксический анализ текста решает задачи:
1) разделение текста на фрагменты по заданным критериям;
2) установление синтаксических зависимостей между словоформами текста;
3) отождествление словосочетаний;
4) нормализация выявленных ключевых слов.
7.7. Автоматическое формирование ПОД
7.7.1. В процедуре АИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.
7.7.2. При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.