Применение
Функция веб-поиска через ~0,1 секунды возвращает результаты поисковых запросов, включающих в среднем три слова. Важно максимизировать такие метрики, как "точность 10 наилучших результатов" (precision@10), отражающие количество высокоточных, соответствующих запросу ответов в первой десятке лучших ранжированных результатов.
Текущий подход
Текущий подход использует следующие шаги:
- сканирование интернета;
- предварительная обработка данных с целью выделения элементов, по которым можно вести поиск (слова, позиции);
- формирование инвертированного индекса, который связывает слова с их местоположением в документах;
- ранжирование релевантности документов с использованием алгоритма PageRank;
- использование маркетинговых технологий (например, обратного проектирования - reverse engineering) для определения моделей ранжирования либо создание препятствий для использования обратного проектирования;
- кластеризация документов по темам (как в Google News);
- эффективное обновление результатов.
Данный вариант использования, в настоящее время охватывающий около 45 млрд веб-страниц, значительно повлиял на развитие современных облачных решений и появление таких технологий, как Map/Reduce.
Планы на будущее
Поиск в интернете - очень конкурентная сфера деятельности, поэтому здесь необходимы постоянные инновации. Двумя важными областями для внедрения инноваций являются удовлетворение потребностей растущего сегмента мобильных клиентов, а также растущая изощренность возвращаемых результатов поиска и схем размещения информации с целью максимизации общей выгоды клиентов, рекламодателей и поисковой компании. Все большее значение также приобретают "глубокий интернет" (deep web-контент, не индексируемый стандартными поисковыми системами, скрытый за пользовательскими интерфейсами доступа к базам данных и т.д.) и поиск по мультимедийным материалам. Ежедневно загружается 500 млн фотографий, и ежеминутно на YouTube закачивается 100 часов видеоматериалов.