Высокая работоспособность достигается использованием дорогого отказоустойчивого оборудования или сложных кластерных систем. Поскольку для предоставления сервисов инфраструктуры общего доступа широко используются ИТ-системы, возрастающее число таких систем должно иметь высокий уровень работоспособности. Имея в виду, что Грид-технологии обеспечивают прозрачный доступ к широкому набору ресурсов как между организациями, так и внутри организаций, они могут быть использованы в качестве "строительных блоков" при реализации стабильной, высоконадежной среды выполнения задач. Но ввиду гетерогенного характера Грид-систем существующие высоконадежные системы вынуждены использовать отдельные компоненты с большим (или вообще непредсказуемым) средним временем ремонта (восстановлением работоспособности), что представляет собой сложную проблему.
В такой сложной среде автономный контроль, основанный на соответствующей политике (см. 4.8), и динамическое распределение ресурсов (см. 4.5) являются основой для создания систем высокой гибкости и восстановления.
Необходимы механизмы восстановления после аварии, которые позволяли бы быстро и эффективно восстанавливать работоспособность Грид-системы в случае природной или гомогенной аварии, исключая длительное отсутствие работы сервисов. Требуются процедуры автоматического восстановления системы и выполнения удаленного резервирования данных.
Могут потребоваться механизмы управления сбоями, обеспечивающие сохранение выполняемых задач при сбое в работе ресурса. Эти механизмы необходимы для мониторинга, определения сбоев и диагностики причин их возникновения. Желательно также наличие автоматического управления сбоями с использованием таких технологий как восстановление с контрольной точки.