Статус документа
Статус документа

ГОСТ Р 59926-2021/ISO/IEC TR 205472:2018 Информационные технологии (ИТ). Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования

     5.3.4 Вариант использования 8: Веб-поиск


Применение

Функция веб-поиска через ~0,1 секунды возвращает результаты поисковых запросов, включающих в среднем три слова. Важно максимизировать такие метрики, как "точность 10 наилучших результатов" (precision@10), отражающие количество высокоточных, соответствующих запросу ответов в первой десятке лучших ранжированных результатов.

Текущий подход

Текущий подход использует следующие шаги:

- сканирование интернета;

- предварительная обработка данных с целью выделения элементов, по которым можно вести поиск (слова, позиции);

- формирование инвертированного индекса, который связывает слова с их местоположением в документах;

- ранжирование релевантности документов с использованием алгоритма PageRank;

- использование маркетинговых технологий (например, обратного проектирования - reverse engineering) для определения моделей ранжирования либо создание препятствий для использования обратного проектирования;

- кластеризация документов по темам (как в Google News);

- эффективное обновление результатов.

Данный вариант использования, в настоящее время охватывающий около 45 млрд веб-страниц, значительно повлиял на развитие современных облачных решений и появление таких технологий, как Map/Reduce.

Планы на будущее

Поиск в интернете - очень конкурентная сфера деятельности, поэтому здесь необходимы постоянные инновации. Двумя важными областями для внедрения инноваций являются удовлетворение потребностей растущего сегмента мобильных клиентов, а также растущая изощренность возвращаемых результатов поиска и схем размещения информации с целью максимизации общей выгоды клиентов, рекламодателей и поисковой компании. Все большее значение также приобретают "глубокий интернет" (deep web-контент, не индексируемый стандартными поисковыми системами, скрытый за пользовательскими интерфейсами доступа к базам данных и т.д.) и поиск по мультимедийным материалам. Ежедневно загружается 500 млн фотографий, и ежеминутно на YouTube закачивается 100 часов видеоматериалов.