Статус документа
Статус документа

ГОСТ Р МЭК 61508-6-2007 Функциональная безопасность систем электрических, электронных, программируемых электронных, связанных с безопасностью. Часть 6. Руководство по применению ГОСТ Р МЭК 61508-2-2007 и ГОСТ Р МЭК 61508-3-2007

Приложение D
(справочное)

     
Методика количественного определения влияния отказов аппаратных средств
с общей причиной в Е/Е/РЕ системах

D.1 Общие положения

Настоящий стандарт включает в себя ряд методов, рассматривающих систематические отказы. Однако независимо от того, насколько эффективны эти методы, существует остаточная вероятность возникновения систематических отказов. Это незначительно влияет на результаты расчета надежности для одноканальных систем, однако возможность появления отказов, способных повлиять на несколько каналов многоканальной системы, т.е. отказов по общей причине, приводит к существенным ошибкам при расчетах надежности многоканальных систем.

В настоящем приложении приводится описание методики, позволяющей учитывать отказы по общей причине при оценке безопасности многоканальных Е/Е/РЕ систем. Использование данной методики дает более точную оценку полноты безопасности такой системы, чем при игнорировании отказов по общей причине.

Данная методика используется для расчета значения , -фактора, часто используемого при моделировании отказов по общей причине. Описываемая методика может быть использована для оценки интенсивности отказов по общей причине в случае двух или более параллельно работающих систем, если известна интенсивность случайных отказов аппаратных средств для одной из этих систем (см. D.5). В некоторых случаях предпочтительнее альтернативные методики, например, если благодаря наличию данных об отказах по общей причине можно получить более точное значение -фактора.

D.2 Краткий обзор

Считается, что отказы системы бывают двух видов:

- случайные отказы аппаратных средств;

- систематические отказы.

Предполагается, что отказы первого вида возникают случайно по времени для любого компонента и приводят к отказу канала системы, частью которого является соответствующий компонент. Существует некоторая вероятность того, что во всех каналах многоканальной системы могут произойти независимые случайные отказы аппаратных средств, вследствие чего все каналы одновременно окажутся неработоспособными. Так как предполагается, что такие отказы аппаратных средств возникают во времени случайно, вероятность таких отказов, одновременно возникающих в параллельных каналах, низка по сравнению с вероятностью отказа одного канала. Такая вероятность может быть рассчитана с помощью хорошо известных методов.

Однако некоторые отказы, например отказы по общей причине, являющиеся следствием одной причины, могут влиять на несколько каналов, что может быть следствием систематической ошибки (например, конструктивной или ошибки технических условий) или внешнего воздействия, ведущего к преждевременным случайным аппаратным отказам (например, избыточной температуры, возникающей из-за случайного отказа аппаратного средства, обычного вентилятора, что сокращает время жизни компонентов или нарушает заданные условия окружающей среды для их работы), или комбинации этих факторов. Так как отказы по общей причине чаще влияют на несколько каналов многоканальной системы, то вероятность такого отказа, скорее всего, будет доминирующим фактором при определении общей вероятности отказа многоканальной системы. Если не учитывать этот фактор, будет трудно получить правильную оценку уровня полноты безопасности.

Хотя отказы по общей причине являются следствием одной причины, они не обязательно проявляются во всех каналах одновременно. Например, при отказе вентилятора все каналы многоканальной Е/Е/РЕ системы могут отказать, что ведет к отказу по общей причине. Однако необязательно все каналы нагреваются с одинаковой скоростью или имеют общую критическую температуру. Следовательно, отказы возникают в разных каналах в разное время.

Архитектура программируемых систем позволяет им выполнять внутреннее диагностическое тестирование непосредственно во время работы, что может быть реализовано различными способами, например:

- один канал PES одновременно с обеспечением работы входного и выходного устройств может непрерывно выполнять внутреннюю проверку своей работы. На этапе проектирования можно достичь значения тестового охвата, равного 99% (см. [11]). Если 99% внутренних сбоев обнаружены до того, как они приведут к отказу, вероятность сбоев одного канала, которые могут, в конечном счете, стать частью отказов по общей причине, значительно снижается;

- помимо внутреннего тестирования каждый канал PES может отслеживать выходы других каналов многоканальной PES (или каждое РЕ-устройство может отслеживать другое РЕ-устройство системы, состоящей из нескольких РЕ-устройств). Следовательно, отказ, возникший в одном канале, может быть обнаружен, и один или несколько оставшихся неотказавших каналов будут выполнять перекрестный контроль и инициировать безопасное выключение (следует отметить, что перекрестный контроль эффективен, если состояние системы управления постоянно меняется, например, при наличии часто используемой в циклически работающем устройстве защитной блокировки или при внесении в устройство небольших изменений, не влияющих на управляющую функцию). Интенсивность выполняемого перекрестного контроля может быть достаточно высока, поэтому непосредственно перед неодновременными отказами по общей причине перекрестный контроль, скорее всего, обнаружит первый отказавший канал и позволит перевести систему в безопасное состояние до момента отказа второго канала.

Например, для вентилятора скорость роста температуры и восприимчивость каналов несколько различаются, поэтому второй канал, возможно, откажет спустя несколько десятков минут после первого. Это позволяет после диагностического тестирования инициировать безопасное отключение первого отказавшего канала до того, как по общей причине откажет второй канал.

Таким образом:

- РЕ-системы обладают возможностью формировать барьеры защиты от отказов по общей причине и, следовательно, в меньшей степени подвержены им по сравнению с другими технологиями;

- для РЕ-систем можно использовать -фактор, отличающийся от -фактора для других технологий. Следовательно, оценки -фактора, опирающиеся на предыдущие значения оценки интенсивности отказов, скорее всего, окажутся неправильными (ни одна из известных существующих моделей оценки вероятности отказа по общей причине не учитывает эффект автоматического перекрестного контроля);

- так как разнесенные во времени отказы по общей причине могут быть обнаружены с помощью диагностического тестирования до отказа всех каналов, подобные отказы могут не восприниматься как отказы по общей причине.

Существует три способа уменьшения вероятности потенциально опасных отказов по общей причине:

1) уменьшение общего числа случайных аппаратных и систематических отказов (это уменьшает площади эллипсов, представленных на рисунке D.1, приводя к уменьшению площади пересечения эллипсов);

2) максимальное увеличение независимости каналов (это уменьшает площадь пересечения эллипсов, представленных на рисунке D.1, не меняя площади самих эллипсов);

3) обнаружение неодновременных отказов по общей причине, когда неисправным становится только один канал, до того как станет неисправным второй, т.е. использование диагностического тестирования.


Рисунок D.1 - Связь между отказами с общей причиной и отказами отдельных каналов