当模型准确率下降5%时,是立即回滚还是观察24小时?请说明决策逻辑。
解读
- 5%的“下降”是业务口径还是离线评估口径?
国内主流做法是“离线+实时”双轨监控:离线用昨日全量数据跑批,实时用今日流量抽样。若离线下降5%,而实时AUC仅掉0.3%,大概率是数据分布漂移,可缓;若实时也掉5%,则触发P0故障。 - 下降的是哪一类准确率?
电商推荐场景里,CTR下降5%但GMV持平,可容忍;金融风控场景里,Precision@Top1%下降5%就可能直接放走千万级欺诈,必须回滚。 - 是否已开启灰度?
国内大厂普遍用“10%→30%→100%”三段灰度。若下降发生在10%灰度,立即熔断即可;若已全量,必须看“损失金额/小时”是否超过公司设定的“故障红线”。 - 合规与舆情风险
教育、医疗、内容审核等强监管赛道,即使下降1%,只要触发“违规内容漏出”即需回滚并上报监管,否则面临约谈或下架。
知识点
- 故障等级定义(参考阿里/腾讯对外SLA白皮书)
P0:核心指标下降≥5% 且 损失金额≥50万元/小时,30分钟内回滚。
P1:下降3–5%,损失<50万元/小时,可观察1小时。 - 数据分布漂移检测
用PSI(Population Stability Index)>0.2 作为触发阈值;若PSI<0.1且指标下降,优先考虑label延迟或埋点bug。 - rollback 机制
国内云厂商(阿里PAI、腾讯TI-ONE)支持“模型版本秒级切换”,回滚耗时<2分钟;需提前准备“上一版热备模型+特征快照”,否则回滚后特征对齐失败,二次事故。 - 用户体感换算
推荐场景:CTR↓5% ≈ 曝光效率↓5%,用户无直接痛感;
搜索场景:Top1准确率↓5%,用户最直观感受“搜不到”,投诉量↑30%以上,必须立即回滚。
答案
“立即回滚”还是“观察24小时”不是二选一,而是按“三层闸门”决策:
第一层:看监管红线。若业务属于金融、医疗、教育等强监管领域,或下降导致违规内容漏出,立即回滚并同步合规报备。
第二层:看损失金额。已配置“实时损失仪表盘”,下降5%对应资损≥公司P0红线(如50万元/小时),立即回滚;若<P0红线,进入第三层。
第三层:看可解释性与灰度范围。
a) 离线下降5%、实时AUC无显著变化,且PSI<0.1,判断为label延迟,留观24小时;
b) 已全量发布,实时亦下降5%,但灰度期间无用户投诉,且上一版热备模型就绪,先回滚至热备,再留观24小时定位Root Cause;
c) 若10%灰度内下降5%,直接熔断灰度,无需回滚全量。
总结:用“监管—资损—可解释性”三级闸门决策,而非简单时间维度,才能保证业务连续性与合规安全双赢。
拓展思考
- 如何设计“可回滚”的特征仓库?
国内头部公司采用“特征快照”机制:每天凌晨把训练用的特征按“模型版本号”落冷存,线上实时特征只保留6小时TTL。回滚时,把上一版模型+对应特征快照一起加载,避免“新特征+旧模型”错位。 - 下降5%但业务方坚持“再观察”,如何说服?
把“5%下降”翻译成业务语言:以电商大促为例,CTR↓5%意味着GMV↓3%,按去年大促体量就是3000万元,用“损失金额/小时”卡片化展示,业务方10分钟内就会签字同意回滚。 - 如何防止“狼来了”式误报?
建立“双盲复核”:监控算法团队与SRE团队各自独立跑一遍统计脚本,结果一致才触发回滚;同时把“误报率”纳入监控团队OKR,每月复盘一次,降低噪音。