ГОСТ Р 27.405-2011
Группа Т59
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Надежность в технике
ОТБРАКОВОЧНЫЕ ИСПЫТАНИЯ НА РАННИЕ ОТКАЗЫ СЛОЖНЫХ СИСТЕМ, ИЗГОТАВЛИВАЕМЫХ В ЕДИНИЧНЫХ ЭКЗЕМПЛЯРАХ
Dependability in technics. Stress testing for early failures in unique complex system
ОКС 21.020
Дата введения 2012-09-01
Предисловие
1 РАЗРАБОТАН Федеральным государственным предприятием "Всероссийский научно-исследовательский институт стандартизации и сертификации в машиностроении" (ВНИИНМАШ)
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 119 "Надежность в технике"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 14 декабря 2011 г. N 1493-ст
4 ВВЕДЕН ВПЕРВЫЕ
5 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта МЭК 62429:2007* "Повышение безотказности. Отбраковочные испытания на ранние отказы сложных систем, изготавливаемых в единичных экземплярах" (IEC 62429:2007 "Reliability growth - Stress testing for early failures in unique complex system")
________________
* Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей. - Примечание изготовителя базы данных.
Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)
Настоящий стандарт представляет собой руководство по повышению степени безотказности во время любых видов заключительных испытаний и приемо-сдаточных испытаний уникальных сложных систем. Он дает указания по проведению и выбору условий ускоренных испытаний и критериям их завершения. Слово "уникальный" означает отсутствие информации о подобных системах, а небольшое количество произведенных систем обусловливает ограниченность информации, извлекаемой из результатов испытаний для использования в будущем производстве похожих или аналогичных систем.
Настоящий стандарт затрагивает вопросы роста безотказности восстанавливаемых сложных систем, состоящих из аппаратных средств со встроенным программным обеспечением (ПО). Он может использоваться для описания процедуры приемо-сдаточных испытаний в процессе приработки с целью гарантировать, что безотказность поставляемой системы не находится под угрозой из-за программных ошибок, ошибок, вызванных недостаточной квалификацией специалистов, или производственных ошибок.
Настоящий стандарт охватывает только период ранних отказов жизненного цикла системы и не затрагивает период постоянства отказов и период отказов из-за изнашивания и старения. Он может также использоваться, когда организация хочет оптимизировать продолжительность испытаний в ходе производства опытных образцов единичных или нескольких экземпляров систем.
Стандарт применим главным образом к большим системам аппаратных средств/ПО, но не относится к большим сетям, например телекоммуникационным и энергетическим, так как испытуемые части таких систем обычно не могут быть изолированы во время испытаний.
Стандарт не распространяется на ПО, проверяемое отдельно, но изложенные в нем методы могут быть использованы вовремя испытаний больших вложенных программ в эксплуатационных аппаратных средствах, при моделировании эксплуатационных нагрузок.
В настоящем стандарте использованы нормативные ссылки на следующий стандарт:
ГОСТ Р 27.002-2009 Надежность в технике. Термины и определения
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
3.1 Термины и определения
В настоящем стандарте применены термины по ГОСТ Р 27.002, а также следующие термины с соответствующими определениями:
3.1.1 сокращение времени: Сокращение времени испытания путем уплотнения времени использования по сравнению с типовым временем в эксплуатации.
Примечание - Например, круглосуточное испытание системы, эксплуатируемой в течение 8 ч в сутки.
3.1.2 время выполнения: Время, требуемое для выполнения заданного числа транзакций.
3.1.3 ошибка в программе: Неявная неисправность ПО.
3.1.4 индикатор безотказности: Нефункциональный параметр, который указывает на возможное наступление отказа в ближайшее время.
3.1.5 испытание на коэффициент успеха: Многократно повторяющиеся испытания, в которых не должно быть отказов.
3.1.6 система: Совокупность взаимосвязанных и взаимодействующих элементов.
3.1.7 транзакция: Набор входных параметров и нагрузок, выбранных из эксплуатационных нагрузок системы.
3.1.8 анализ первопричин: Действия по выявлению причин неисправности или отказа, с тем чтобы их можно было удалить из проекта.
3.2 Обозначения
- общее число транзакций;
- число неисправностей, обнаруженных за время ;
- неприемлемое число неудачных транзакций из общего числа транзакций;
- число неисправностей;
- вероятность того, что система с неприемлемой вероятностью безотказной работы проходит испытания без отказов;
- число транзакций, выполненных без отказа;
- неприемлемая вероятность отказа за одну транзакцию;
- время испытаний;
- предельное время испытаний;
- время испытаний, в течение которого были обнаружены неисправностей;
- время испытаний, в течение которого была обнаружена -я неисправность;
- минимальное время испытаний, которое должно быть накоплено системой при 0 отказов;
- значение мгновенного параметра потока отказов;
- значение мгновенного параметра потока отказов для неисправности ;
- наработка на отказ для неисправности ;
- отсутствие отказа за время при заданном значении мгновенного параметра потока отказов;
- предполагаемое число оставшихся скрытых неисправностей системы.
Настоящий стандарт относится к большим программно-аппаратным системам, проверяемым с помощью моделирования эксплуатационной нагрузки. Поэтому в ходе испытаний неизвестно, вызван ли этот отказ оборудованием, ПО, эксплуатационной нагрузкой или их комбинацией. Отказ может быть вызван неисправностью аппаратных средств, например неисправностью оперативной памяти, изменением синхронизации, приводящим к конфликту данных, или электромагнитными помехами, приводящими к изменению передаваемых данных. Отказ может также быть вызван скрытой неисправностью ПО или несанкционированной информацией. В целях настоящего стандарта вопрос восстановления неисправности оборудования или изменения ПО рассматривается только с учетом степени влияния на результаты испытания, например в связи с использованием статистической модели.
Почти все современные системы содержат встроенное ПО. Программное обеспечение, как правило, проверяют на разрабатываемых аппаратных средствах с использованием транзакций, полученных из спецификаций системы. Часто разработка ПО затягивается, что ограничивает время тестирования ПО. Как правило, недопустимо, чтобы потребитель первым использовал ПО на действующем оборудовании. Таким образом, стандарт для руководства испытанием и повышения безотказности оборудования со встроенным ПО является актуальным.
Что касается оборудования, предполагают, что ранние отказы вызваны его скрытыми неисправностями. В зависимости от типа и уровня нагрузки эти скрытые неисправности могут через некоторое время привести к постоянным или периодическим отказам. Пример - трещина в компоненте. В условиях работы в сухой атмосфере, без вибраций или ударов неисправность может оставаться скрытой. Но при эксплуатации во влажной атмосфере влага и загрязняющие вещества могут проникать через трещину и привести к коррозии, заканчивающейся необратимой неисправностью. Кроме того, вибрации или удары могут вызвать трещины, что через некоторое время приводит к необратимой неисправности.
В отличие от оборудования ПО детерминировано. Это означает, что скрытая неисправность ПО (обычно называемая ошибкой ПО) не приведет к отказу, пока не будет активирована часть кода, содержащая эту скрытую неисправность. Момент, когда это происходит, зависит от условий эксплуатации (например, от входных параметров и внутреннего состояния программы, контента памяти). Таким образом, существует определенное сходство между скрытыми неисправностями аппаратных средств и скрытыми неисправностями ПО. Активированная скрытая неисправность ПО может вызвать необратимые неисправности и зачастую - быть единственной причиной перемежающегося отказа.
Логические сбои носят систематический характер (т.е. они могут быть воспроизведены по желанию, если известна инициация неисправности, имеющей к ним отношение). Так как пусковой механизм каких-либо скрытых неисправностей определяется наугад в операционной среде системы, логические сбои наблюдаются как стохастический процесс. Таким образом, могут быть применены обычные меры безотказности (вероятное время следующего отказа, интенсивность отказов и т.п.). Как правило, степень надежности растет, когда скрытые неисправности удалены.
Таким образом, термин "скрытая неисправность" в настоящем стандарте используется для определения слабых мест аппаратных средств и ошибок ПО.
Отказ, вызванный сочетанием скрытых неисправностей аппаратных средств и ПО, может, например, быть обусловлен тем, что скрытая неисправность аппаратных средств привела к недостаточному охлаждению компонентов. Повышение температуры изменило время задержки в цепи, в результате произошел конфликт данных, приведший к сбою ПО. Другая возможная комбинация - ошибки проектирования аппаратных средств стали причиной недостаточного экранирования сигнальных проводников. Повышенный уровень электромагнитных помех исказил данные в проводниках сигнала, вызвав сбой в ПО в случае, когда ПО не имело средств исправления ошибок или когда уровень электромагнитных помех среды эксплуатации высокий.
Настоящий стандарт касается восстанавливаемых систем, которые производятся в очень небольшом числе, и результаты предыдущих испытаний подобных систем ограничены или вообще отсутствуют. Настоящий стандарт может быть использован, когда производитель хочет оптимизировать продолжительность внутреннего приемо-сдаточного испытания и отладки. В настоящем стандарте рассматривают методы проверки степени повышения надежности до или в момент поставки готовой системы. Поэтому испытание допускается проводить на предприятии-изготовителе или на предприятии конечного пользователя. Он может также быть использован, когда организация хочет оптимизировать продолжительность окончательной аттестации производства при изготовлении отдельных элементов, небольших серий или в ходе испытаний прототипа.
Настоящий стандарт может быть использован для одной или нескольких больших систем для улучшения характеристик только этих систем. Если пользователь системы повышает степень надежности за счет обновления аппаратного обеспечения и ПО улучшенными версиями, настоящий стандарт может быть использован для контроля степени повышения надежности.
Стандарт распространяется не только на ПО. Он может быть использован, когда встроенное ПО проверено в аппаратной системе с помощью тестовых стратегий, которые выявляют уменьшение числа отказов в зависимости от продолжительности испытания, например испытание ПО с имитацией эксплуатационной нагрузки. Описанные методы хорошо подходят для тестирования и повышения стойкости ПО к переходным процессам и нарушениям, вызванным эксплуатационной нагрузкой и аппаратной системой. Настоящий стандарт предназначен для больших аппаратных систем/ПО, но не пригоден для больших сетей, например, телекоммуникационных и электроснабжения, так как отдельные части таких сетей трудно выделить в ходе испытаний.
Проверка степени повышения безотказности - метод выявления и устранения скрытых неисправностей, но его недопустимо использовать в качестве основного средства достижения желаемого уровня надежности производимых систем. Большие системы часто производят в небольшом числе, иногда только одну или несколько систем. Таким образом, оставшиеся скрытые неисправности, возникшие в ходе разработки и производства, должны быть определены путем проверки степени повышения надежности готовой системы. Тем не менее, для уменьшения числа скрытых неисправностей в создаваемой системе выполняют надлежащий контроль процесса и такие превентивные методы, как анализ видов и последствий отказов, анализ дерева неисправностей и экспертиза проекта. Кроме того, необходимо контролировать производственные и монтажные процессы, например с помощью статистического управления производственным процессом.
В некоторых случаях можно разделить большую систему на ряд аналогичных модулей. В этом случае аналогичные модули рассматривают как партию. Это позволяет обнаруживать скрытые неисправности модулей, но не отказы, вызванные взаимодействием модулей и между модулями, а также встроенным ПО.
Отказы, возникшие в результате взаимодействия между модулями, могут быть выявлены только путем проверки степени повышения безотказности готовой системы. В современных системах многие отказы обусловлены взаимодействием аппаратных средств и ПО. Эти отказы не могут быть найдены до момента готовности и функциональности всей системы.
Настоящий стандарт распространяется только на начальный период отказов жизненного цикла системы. Он не охватывает период случайных отказов и период отказов вследствие износа.