您会监控哪些关键的数据质量指标(如缺失率、分布漂移)来预警模型退化?
解读
面试官想知道三件事:
- 你是否能把“数据质量”拆成可量化、可告警的指标,而不是泛泛而谈;
- 你是否知道哪些指标在中国真实业务场景(高频迭代、灰度发布、合规强监管)里最容易触发模型翻车;
- 你能否把指标→阈值→告警→复盘→迭代的闭环说清楚,体现产品经理的“落地”能力。
回答时要“先分类、再给指标、再讲阈值、最后说动作”,用一线案例背书,避免堆砌术语。
知识点
- 数据新鲜度:T+1 批次延迟超过 6h 即触发 P0 告警(国内凌晨 2 点必须完成 ETL,否则早高峰推荐位无新模型)。
- 缺失率:
- 核心字段(用户 id、订单金额)缺失率 >0.1% 即熔断;
- 非核心字段 >5% 触发采样补录任务。
- 异常值:
- 连续特征 3σ 外占比 >1% 或箱型图外限 >3% 即告警;
- 枚举值出现训练期未登录的新取值 >0.5% 即阻断。
- 分布漂移:
- PSI>0.1 且持续 2 个时间窗(国内通常按天)即触发“漂移 review 会”;
- 对于金融风控,KS 下降 >3pp 即同步冻结额度策略。
- 标签质量:
- 人工抽检 1000 条,一致性 <92% 即打回重标;
- 埋点回流标签延迟 >24h 即影响 T+1 训练,需自动降级用昨日模型。
- 特征稳定性:
- 特征重要度 TOP20 的 Pearson 相关系数跨周波动 >0.05 即列入“黄名单”,>0.1 即“黑名单”下线。
- 数据合规:
- 个人敏感字段未脱敏率 >0 即一级告警,直接上报网安合规组(参考《个人信息保护法》第 66 条)。
- 线上反馈一致性:
- A/B 实验组用户负向率(举报/差评)较对照组提升 >20% 即触发“模型回滚+数据回查”双通道。
答案
“我会把数据质量指标拆成四层十二项,全部写进《数据监控 PRD》并接入夜莺+飞书机器人,做到 5 分钟告警、30 分钟定位、2 小时止血。
第一层:数据新鲜度与完整性
- 批次延迟:凌晨 2 点未就绪即 P0 电话告警;
- 缺失率:核心字段 0.1% 熔断,非核心 5% 补录。
第二层:数据分布与异常
- PSI>0.1 连续两天即拉漂移评审;
- 3σ 异常占比>1% 或新枚举值>0.5% 即阻断训练。
第三层:标签与特征
- 人工抽检一致性<92% 重标;
- TOP20 特征相关系数周波动>0.05 黄名单,>0.1 黑名单。
第四层:合规与业务反馈
- 敏感字段未脱敏率>0 即合规告警;
- 线上负向率提升>20% 触发回滚。
所有阈值均通过过去 12 个月历史数据 P99 分位+业务容忍度双校准,每月召回率保持在 95% 以上,误报率控制在 3% 以内。告警触发后,自动创建 JIRA 工单,指派数据 owner、算法 owner 和我三方,2 小时内给出止血方案,24 小时内输出复盘报告,确保模型退化不超过一个时间窗。”
拓展思考
- 阈值动态化:用“滚动基线”替代固定阈值,节假日、大促、疫情等突发场景自动放宽 PSI 至 0.25,防止误报。
- 成本折衷:对高成本实时特征,允许缺失率放宽到 10%,但同步在模型侧加“缺失指示器”兜底,保证 AUC 下降 <0.3%。
- 多模态场景:图文多模态产品需额外监控“图片重复率”“OCR 空识率”,避免内容农场批量盗图导致特征失效。
- 合规升级:2024 年《生成式 AI 服务管理暂行办法》要求对训练数据做“来源可追溯”,需在监控看板加“数据源指纹”字段,缺失即触发合规红线。