您会监控哪些关键的数据质量指标(如缺失率、分布漂移)来预警模型退化?

解读

面试官想知道三件事:

  1. 你是否能把“数据质量”拆成可量化、可告警的指标,而不是泛泛而谈;
  2. 你是否知道哪些指标在中国真实业务场景(高频迭代、灰度发布、合规强监管)里最容易触发模型翻车;
  3. 你能否把指标→阈值→告警→复盘→迭代的闭环说清楚,体现产品经理的“落地”能力。

回答时要“先分类、再给指标、再讲阈值、最后说动作”,用一线案例背书,避免堆砌术语。

知识点

  1. 数据新鲜度:T+1 批次延迟超过 6h 即触发 P0 告警(国内凌晨 2 点必须完成 ETL,否则早高峰推荐位无新模型)。
  2. 缺失率:
    • 核心字段(用户 id、订单金额)缺失率 >0.1% 即熔断;
    • 非核心字段 >5% 触发采样补录任务。
  3. 异常值:
    • 连续特征 3σ 外占比 >1% 或箱型图外限 >3% 即告警;
    • 枚举值出现训练期未登录的新取值 >0.5% 即阻断。
  4. 分布漂移:
    • PSI>0.1 且持续 2 个时间窗(国内通常按天)即触发“漂移 review 会”;
    • 对于金融风控,KS 下降 >3pp 即同步冻结额度策略。
  5. 标签质量:
    • 人工抽检 1000 条,一致性 <92% 即打回重标;
    • 埋点回流标签延迟 >24h 即影响 T+1 训练,需自动降级用昨日模型。
  6. 特征稳定性:
    • 特征重要度 TOP20 的 Pearson 相关系数跨周波动 >0.05 即列入“黄名单”,>0.1 即“黑名单”下线。
  7. 数据合规:
    • 个人敏感字段未脱敏率 >0 即一级告警,直接上报网安合规组(参考《个人信息保护法》第 66 条)。
  8. 线上反馈一致性:
    • A/B 实验组用户负向率(举报/差评)较对照组提升 >20% 即触发“模型回滚+数据回查”双通道。

答案

“我会把数据质量指标拆成四层十二项,全部写进《数据监控 PRD》并接入夜莺+飞书机器人,做到 5 分钟告警、30 分钟定位、2 小时止血。

第一层:数据新鲜度与完整性

  • 批次延迟:凌晨 2 点未就绪即 P0 电话告警;
  • 缺失率:核心字段 0.1% 熔断,非核心 5% 补录。

第二层:数据分布与异常

  • PSI>0.1 连续两天即拉漂移评审;
  • 3σ 异常占比>1% 或新枚举值>0.5% 即阻断训练。

第三层:标签与特征

  • 人工抽检一致性<92% 重标;
  • TOP20 特征相关系数周波动>0.05 黄名单,>0.1 黑名单。

第四层:合规与业务反馈

  • 敏感字段未脱敏率>0 即合规告警;
  • 线上负向率提升>20% 触发回滚。

所有阈值均通过过去 12 个月历史数据 P99 分位+业务容忍度双校准,每月召回率保持在 95% 以上,误报率控制在 3% 以内。告警触发后,自动创建 JIRA 工单,指派数据 owner、算法 owner 和我三方,2 小时内给出止血方案,24 小时内输出复盘报告,确保模型退化不超过一个时间窗。”

拓展思考

  1. 阈值动态化:用“滚动基线”替代固定阈值,节假日、大促、疫情等突发场景自动放宽 PSI 至 0.25,防止误报。
  2. 成本折衷:对高成本实时特征,允许缺失率放宽到 10%,但同步在模型侧加“缺失指示器”兜底,保证 AUC 下降 <0.3%。
  3. 多模态场景:图文多模态产品需额外监控“图片重复率”“OCR 空识率”,避免内容农场批量盗图导致特征失效。
  4. 合规升级:2024 年《生成式 AI 服务管理暂行办法》要求对训练数据做“来源可追溯”,需在监控看板加“数据源指纹”字段,缺失即触发合规红线。