Статус документа
Статус документа

ГОСТ Р 59926-2021/ISO/IEC TR 205472:2018 Информационные технологии (ИТ). Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования

     5.6.3 Вариант использования 28: Truthy - Исследование распространения информации на основе данных Твиттера


Применение

Необходимо лучше понимать, как информация распространяется по социально-техническим сетям, и требуются методы для обнаружения потенциально опасной информации (например, вводящих в заблуждение сообщений, скоординированных кампаний и недостоверной информации) на ранних стадиях ее распространения.

Текущий подход

Твиттер генерирует непрерывный поток данных большого объема - около 30 терабайт в год в сжатом виде - посредством распространения примерно 100 млн сообщений в день. Темпы роста объемов данных составляют примерно 500 гигабайт в день. Все эти данные должны быть собраны и сохранены. Дополнительные потребности включают анализ таких данных в режиме времени, близком к реальному, с целью выявления аномалий, кластеризации потока, классификации сигналов и онлайн-обучения; а также поиск данных, визуализацию больших данных, интерактивные веб-интерфейсы и общедоступные программные интерфейсы (API) для запросов к данным. Сведения о программном обеспечении приведены в A.5.4. Возможности для анализа процесса распространения информации, для кластеризации и динамической визуализации уже существуют.

Планы на будущее

Планируется расширение проекта, поэтому необходимо двигаться в сторону описанных в A.5.4 развитых программ распределенного хранения и базы данных, располагающейся в оперативной памяти компьютера, с целью обеспечения анализа в реальном времени. Решения должны включать кластеризацию потока, обнаружение аномалий и онлайн-обучение.