【老橡树专栏】功能安全实践-硬件开发阶段(4)下

来源:知乎-老橡树
2021-02-01
5058

在 功能安全实践-硬件开发阶段(4)上 这一篇文章中,我们做了硬件的FTA分析和为硬件安全要求分配更加详细的规格即HSR, 本篇中继续完成硬件开发的《5-3 安全设计》和《5-4 技术要求验证》任务。 总的要求即,根据之前的分析,重新设计系统图,并且实现具体的电路图,然后对技术安全进行验证,使用的工具是FTA 和FMEDA.

5-3 安全设计

5-3-1 硬件系统设计图(增加了功能安全模块的)

按照之前的模块图,在系统图中增加功能安全相关的模块(红色),当然这里并不充分演示全部的对策。

5-3-2 电路设计图(增加了功能安全模块的)

略。。

5-3-3 对硬件模块的描述(增加了功能安全模块的)

在之前的基本功能模块基础上增加功能安全电路模块或在原基础上增加功能安全对策的描述,因为增加了HSR,须对组件概要增加功能安全要求方面的描述。完整的功能子模块的描述包括:

  • 上一篇文章中已经列出的所有的基本功能子模块并且分析了之后得到满足功能安全需要的HSR,因此需增加此方面的描述。比如MCU中之前只有主CPU,现在增加了副CPU(检查用),那么需在硬件组件概要中增加目的和方法概要。

  • 为了功能安全新增的子功能模块,比如上图中的CAN 电路2、切断电机电流的电路等等。

  • 目标故障率,每个SG的PMHF 是10fit,假设上面有40个模块,那么分配到上面每个模块的故障率是10/40=0.25Fit (当然功能安全规范中不做要求,作为直观的认识,建议记上)

  • 每个功能的硬件安全规格HSR-XXX。

5-3-4 状态定义图(增加了功能安全模块的)

在我们之前的HSR分析中,完整的安全机制应该包含了状态的检查和确认,那么控制器的整个运行周期需被再定义,比如ECU在启动过程中,增加了自检的步骤,在这个阶段可以检测ROM,RAM,NVM,IO,AD等故障,当IG断开时ECU退出运行状态,保存相关的参数,直到系统安全退出。

5-3-5 HSI更新(增加了功能安全模块的)

前面增加了功能安全相关的配置,那么在HSI文件中,各硬件和软件接口的功能安全的相关TSR和HSR配置就可以更新了。例如下面的电机电流值AD变换的软硬件接口。到此,HSI文件应该是完整的,输出给软件设计部门,将来出现因定义不清而扯皮的事情也会少发生。

5-4 技术要求验证

验证分为FTA 验证和硬件FMEDA

5-4-1 FTA 验证

FTA验证即回过头去评估我们分析到的HSR和SSR是否已经覆盖了之前FTA中的故障模式,是定性的分析。在FTA验证中,我们可以区分:

  • 哪些故障是不需要特别去加安全机制如只需QM就可以,但需分析和证据

  • 哪些故障不能直接加安全机制而是需分解后才能加的

  • 哪些故障是安全机制加入之后会导致潜在故障(LF)

  • 哪些故障是可以直接加安全对策的(最底端的故障)

在FTA 图中以颜色区分以上四种情况,检查和评审的时候做到一目了然,

针对SG-01 的功能安全目标的FTA验证如下列的图示。

当大家浏览下面的验证过程时,可能会和上篇:老橡树:功能安全实践-硬件开发阶段(4)上 的故障树分析和HSR/SSR 分析联系一起,完整的故障树分析应该都会用上之前所有的HSR-XXX,SSR-XXX, 甚至TSRSW-XXX 的, 但是因为当前FTA非完整版本,如HSR-001、SSR-001 等并没有体现到,并且针对某失效对策可能不止一个,软硬件的组合更加有效果。

总结一下(也作为HSR方法的补充):

前面的检讨主要是为每个故障分配对应的安全策略或安全机制(SM),除了和产品特性相关的对策以外,大多的方策主要来自ISO26262第五部分的参考D.

  • D.2.6.5 Input comparison/voting 输入比较或投票

  • D.2.3.6 HW redundancy 硬件冗余

  • D.2.4.1 Memory monitoring using error-detection-correction codes (EDC)

  • D.2.6.5 Monitored outputs 输出监控

  • D.2.9.2 Watchdog with separate time base with time-window 看门狗

  • etc

5-4-2 硬件FMEDA

FTA 验证以定性的分析方法验证了HSR/SSR能否有效的阻止违背功能安全的故障产生,而FMEDA则以量化的手段来衡量安全方策和HSR/SSR是否能够满足功能安全目标的要求。

为了大家更好理解,复习一下:

  • 安全故障:指某个故障,它不会显著地增加违反安全目标的概率。(SF)

  • 单点故障:单点故障指某个硬件单元中的某个故障,它无法被“安全机制”探测到,并且它会直接导致安全目标的违反。(SPF)

  • 残余故障:在某个硬件单元中被诊断的故障的残存部分,即没有被诊断覆盖(诊断覆盖率>0%)到的那部分故障,并且它会立即导致安全目标的违反。(RF)

  • 两点故障:指某个故障,只有当它和另外一个故障共同作用后,才造成了安全目标的违反。

  • 多点故障:当有多个(大于 2 个)具有足够独立性的故障共同组合后引起的失效,通常可以忽略。如果“多点故障”可以被识别,则应归类为“可检测的多点故障”;如果“多点故障”可以被探知,并且能够被驾驶员控制(如:前灯变暗的缺陷),则应归类为“可感知的多点故障”(MPF)。

  • 潜伏故障:指“多点故障”中未被检测到的部分,称为“潜在错误”。它是“多点错误”,并且不能被检测到,而是潜藏在系统单元内,具有违反安全目标的风险。(LF)

当一个失效发生时,按照下面的流程来判定失效导致的故障属于哪种类型。

复习结束。

那么,开展FMEDA分析大概的要点如下:

  • 要点1: 先有FMEA 再有FMEDA, 即分析具体的电子元件的失效模式,计算失效率,后确定属于哪种故障(SF,SPF..),然后做量化计算SPFM,LFM。 中间过程计SF,SPF,RF,MPF,LF..的值。

  • 要点2: 针对每个功能目标进行FMEAD,若某 SG 要求 ASIL D,则需满足SPFM ≥99%,LFM≥90%。MPMHF<10 Fit.

  • 要点3: 在SM(安全机制)的要求原则下,确定具体的诊断( D),然后确定诊断覆盖率(DC)

需准备下列的数据:

准备“数据库1”:归类构成模块的器件。

第一个表

准备“数据库2”:器件的失效模式

第二个表

↑ 可以参考: SN 29500; 计算所有器件的故障率,用于后面的计算。

准备“数据库3”:器件失效模式的划分

第三个表

↑ 故障划分可以参考: IEC- 62380,在上表中可以先定发生率为1,因为在后面的FMEDA中会根据把失效率转化为PPM(每百万分之)概率。

准备“数据库4”:故障模式 (除了和功能安全的相关的故障模式外,还有其他功能故障)

第四个表

↑ 和功能安全相关的严重度的定义都应该标“10”。故障模式包括我们一开篇分析的车辆的故障,比如突然加速,突然减速,突然停止。。。等等,轻的故障包括EMC保护失效,比如某个电容开路了,本电容作为EMC对策,那么系统的EMC保护效果降低。 总而言之,根据FMEA的经验,尽列出所有可能发生的故障模式。

准备“数据库5”:诊断和诊断覆盖率 (DC)

第五个表

  • ↑故障的检出率是和DC相关的,99% 对应检出率1,90% 对应2, 60%对应4。

  • ↑DC 和 标准part5 附录D 关联,和我们之前做的FTA,HSR 有机的结合在一起,形成闭环。

上面这些数据库,就是我们做FMEDA的基本原料,接下来开始进行FMEDA的制作了。为了能够方便的用我们数据库,Excel 中的 If 和Vlookup 语句要熟练掌握,使用它们不仅可以省很多功夫而且能统一我们的描述方式。比如针对某器件的失效发生率和检出率以及引起的故障的严重度都可以从数据库中自动填入。

FMEDA主要的目标是,针对每个SG, 要分别得出各自的三个量度:

  • SPFM=1-(单点故障总和+残余故障总和)/所有和安全相关失效率总和

  • LFM=1-所有潜在故障的总和/(所有和安全相关失效率总和-(单点故障总和+残余故障总和))

  • PMHF=单点故障总和+残余故障总和+所有潜在故障的总和

那么开始去填写FMEDA表格了。

建议按照模块进行每个器件的分析,针对某个电路模块中的某个器件:比如陶瓷电容Cx。

Cx 总的失效率为F(查第二个表), 开路占 20%, 短路占80%(查第三个表),Cx在电路中的作用(查第一个表),然后开始分别检讨开路和短路导致的ECU本身和对系统(车辆)影响-----------(ECU失效指的是某个电路功能失效,而系统失效指的是这种失效对的车辆的影响,---这是我们做分析的目的,即最终评估其对系统的影响),因此,第四个表的故障模式就是基于我们以前做的一系列的安全评估,SG,FTA。。。的分析的汇总), 所以FMEDA中侧重分析系统的失效,要在第四个表中选。选定之后,严重度等级SEV自动填入。 接来要填写防止对策,从第五个表中寻找需要的对策编号,检测或诊断方法,DC 也相应的填写进来。总结如下表:

完整的DFMEA还包括采取防止措施和诊断措施之后的严重度、发生率、检测性。

  • 严重度:如果采取了防止或诊断措施,那么故障应该会向安全的状态迁移,就是说在可能出现致命的故障之前,经过防止或诊断措施后,向比较轻微的故障迁移,比如指示灯亮了,或车子不能动,或限速了等,那么严重度从10减低到更低,比如5,4。

  • 发生率: 发生率的计算和器件的失效率有关,也指的是车辆从下线到报废整个生命周期故障的发生概率,计算方法可以参考IEC-62380和VDA的指导。

  • 检测性: 如果有检测措施,那么为1,否则为0。

至此,基本的DFMEA 做成了。

接下来,要评估LF了,从定义上讲,LF是多点故障(主要是两点故障)发生后的导致的系统的故障,这种故障往往是违背功能安全目标的。 比如, 某个器件失效发生,而该器件本来的作用是构成诊断对策回路的,意味着诊断失效而导致检测不到潜在故障。当然也有器件失效后不引起任何潜在故障的,要仔细分析。因此,在FMEDA分析中,一般需要分析到两重故障。下面就举个和LF相关的栗子:

  • 失效: 某电阻开路,该电阻总的失效率为0.090Fit, 开路的占比1%,即0.0009fit。

  • 模块功能: 切断IGBT的驱动电路。

  • 开路导致的失效: 无法切断IGBT电路。

  • 潜在故障1: 安全机制无法执行,即无法进入安全状态(切断电机电流)。

  • 潜在故障2:无法避免电机自我加速 (违背了功能安全SG-01),即是SG-01的LF。

  • CD: 该电路是安全机制之一,覆盖率99%,

  • ==>因此 LF =0.0009Fit x (1-99%)=0.00009Fit。

所有LF 相加,得到总的LF, 请注意是和某个功能安全目标相关的LF.

分别计算:SPF+RF , MPF

  • 如果不是LF, 就可以计算SPF+RF了,即器件的故障X失效占比(如果没有安全机制) + 器件的故障X失效占比X(1-DC ).(如果有安全机制)。

  • LF不为0时,SPF+RF=0

  • MPF :器件的故障 X 失效占比 X (DC ).

然后用加和公式,计算总的SPF+RF,MPF.

计算SPFM,LFM,PMHF所需的参数已经集齐,就可以按照上面的公式计算、判断了.

FMEDA Done!


功能安全的第五部分,到此终于被我啰啰嗦嗦写完了, 待完善地方太多了, 先发了吧,以后回来再更新.


功能安全
收藏
点赞
2000