如何验证安全关键设计的功能正确性?
解读
安全关键(Safety-Critical)芯片在国内主要服务于轨道交通、汽车电子、电网保护、工业控制、医疗植入等“高后果”场景,一旦失效将直接威胁人身或重大财产安全。面试官抛出此题,并非单纯考察UVM熟练度,而是想看候选人是否具备“体系化安全思维”:能否把功能正确性验证上升到“系统性失效与随机性失效”双维度,能否把国标、行标、车规、IEC 61508、ISO 26262 的抽象条款落地到可执行的验证计划,能否用量化指标(如DC、DFA、FMEDA)把“正确”说到“可签名”级别。回答必须体现“流程合规 + 场景穷尽 + 数据可追 + 签字可负”。
知识点
- 安全生命周期与V模型:ISO 26262 Part 4-6、IEC 61508-2/3 对芯片层V&V的强制要求;国内GB/T 34590-2017同步转化。
- 安全机制(Safety Mechanism) vs 功能特性:双核锁步、ECC、TMR、WDT、BIST、CRC、地址监控、时钟监控、电压监控。
- 故障注入分类:
– 系统性故障:需求歧义、RTL编码错误、协议理解偏差;用静态检查、形式验证、覆盖驱动的动态仿真解决。
– 随机硬件故障:单粒子翻转、老化、热载流子;用故障注入(DFIT)、门级/晶体管级SEU仿真、FMEDA 计算SIL/ASIL 度量。 - 验证方法学:
– 需求追踪:ID.DEV-1 到 V&V 矩阵,用IBM DOORS、Jama、GitLab-Req 实现双向追溯,确保每条安全需求至少有两条独立验证手段。
– 形式化验证:使用Synopsys VC Formal、Cadence IFV、Siemens Questa Formal,对“无死锁”“无数据一致性违背”“安全状态机不可绕过”做穷举证明。
– 故障注入平台:
‑ 数字部分:在RTL级插入SA0/SA1、翻转、延迟故障,运行故障列表(fault list)≥1e5,统计安全机制检测覆盖率(DC)≥99%(ASIL-D)。
‑ 模拟/混合信号:用Synopsys Saber、Cadence AFS做故障注入,验证POR、LVD、温度传感器精度。
– 硬件加速与FPGA原型:HAPS、Zynq UltraScale 搭建“整车/整机”环境,跑MIL/SIL/PIL 数百万公里等效里程,发现边界场景。
– 代码覆盖率 + 功能覆盖率 + 安全覆盖率:合并为“三合一度量”,低于100%需经技术安全委员会(TSC)豁免签字。 - 国内合规与签字流程:
– 第三方测评:工信部电子五所、中国赛宝、上海机动车检测中心(SMVIC)要求提交《安全验证报告》《故障注入报告》《FMEDA 表》。
– 版本冻结:任何ECO必须重新走“影响分析-回归验证-安全评估”三环,否则无法获得《道路车辆用芯片产品认证证书》。
答案
“验证安全关键设计的功能正确性,我把它拆成‘三步七层’,全部围绕ISO 26262 的‘避免不合理风险’目标展开。
第一步,需求层与计划层:先把外部客户安全需求(Item Definition)拆解为芯片级安全需求(Safety Goal),再用DOORS 建立双向追溯矩阵,确保每条Goal 都有验证项、验证方法、通过准则、责任人、签字日期。
第二步,执行层:
- 系统性失效清除:
– 用SpyGlass、VC LP 做静态规则检查,零 waiver 准入;
– 用形式化工具对‘双核锁步比较器不可屏蔽’‘ECC 不可绕过’做穷举证明,输出Formal Proof Report;
– 搭建UVM/UVM-MS 环境,把安全机制当作独立VIP 嵌入,跑完所有协议异常、非法配置、时序违例场景,代码覆盖率、功能覆盖率、安全覆盖率三表合一,达到100%。 - 随机硬件故障度量:
– 在RTL 级用Tessent Safety Insight 注入10 万条故障,运行故障仿真,统计DC≥99%、Latent Fault <1%(ASIL-D 要求);
– 门级用PrimeTime 做SEU 分析,对时序单元做TFIT 计算,确保软失效率<10 FIT;
– 将结果导入FMEDA,与硬件架构师迭代,直到随机硬件失效率满足ASIL D 目标值(<100 FIT)。
第三步,签字层:
– 所有验证报告、故障列表、覆盖率数据库、形式化证明脚本,统一存入PLM 系统,经功能安全经理、质量代表、第三方审核员三方会签;
– 最后输出《Safety Verification Sign-off Report》,作为流片与车规认证的前提条件。
整个流程在国内项目已跑通,上一轮BMS AFE 芯片按此方案一次性通过SMVIC 审核,无安全相关ECO。”
拓展思考
- 人工智能安全芯片的“算法-硬件协同安全”如何验证?
– 需把算法级对抗样本、权重翻转、存储位错纳入故障模型,用AI 专用FI 框架(如NVIDIA Loki、阿里PIFI)跑百万张图片,观察安全岛能否在50 ms 内把系统切到降级模式。 - Chiplet 架构下,跨裸片互连的ECC 失效如何追根溯源?
– 要在系统级数字孪生里把裸片间PHY 延迟、温度梯度、电源噪声全部参数化,跑蒙特卡洛+故障注入,确保裸片级FIT 可累加到系统级SMFFR(System-level Matrix Failure Rate)。 - 国内正起草《汽车芯片功能安全抽查规范》,预计2025 年强制执行,企业需提前建立“飞行检查”数据库:任何版本变更必须在24 h 内可回溯仿真、可重放覆盖率、可复现故障注入结果,否则视为违规。