您会监控哪些关键的数据质量指标（如缺失率、分布漂移）来预警模型退化？ - 问题详情 - 创脉思

解读

面试官想知道三件事：

你是否能把“数据质量”拆成可量化、可告警的指标，而不是泛泛而谈；
你是否知道哪些指标在中国真实业务场景（高频迭代、灰度发布、合规强监管）里最容易触发模型翻车；
你能否把指标→阈值→告警→复盘→迭代的闭环说清楚，体现产品经理的“落地”能力。

回答时要“先分类、再给指标、再讲阈值、最后说动作”，用一线案例背书，避免堆砌术语。

知识点

数据新鲜度：T+1 批次延迟超过 6h 即触发 P0 告警（国内凌晨 2 点必须完成 ETL，否则早高峰推荐位无新模型）。
缺失率：
- 核心字段（用户 id、订单金额）缺失率 >0.1% 即熔断；
- 非核心字段 >5% 触发采样补录任务。
异常值：
- 连续特征 3σ 外占比 >1% 或箱型图外限 >3% 即告警；
- 枚举值出现训练期未登录的新取值 >0.5% 即阻断。
分布漂移：
- PSI>0.1 且持续 2 个时间窗（国内通常按天）即触发“漂移 review 会”；
- 对于金融风控，KS 下降 >3pp 即同步冻结额度策略。
标签质量：
- 人工抽检 1000 条，一致性 <92% 即打回重标；
- 埋点回流标签延迟 >24h 即影响 T+1 训练，需自动降级用昨日模型。
特征稳定性：
- 特征重要度 TOP20 的 Pearson 相关系数跨周波动 >0.05 即列入“黄名单”，>0.1 即“黑名单”下线。
数据合规：
- 个人敏感字段未脱敏率 >0 即一级告警，直接上报网安合规组（参考《个人信息保护法》第 66 条）。
线上反馈一致性：
- A/B 实验组用户负向率（举报/差评）较对照组提升 >20% 即触发“模型回滚+数据回查”双通道。

答案

“我会把数据质量指标拆成四层十二项，全部写进《数据监控 PRD》并接入夜莺+飞书机器人，做到 5 分钟告警、30 分钟定位、2 小时止血。

第一层：数据新鲜度与完整性

批次延迟：凌晨 2 点未就绪即 P0 电话告警；
缺失率：核心字段 0.1% 熔断，非核心 5% 补录。

第二层：数据分布与异常

PSI>0.1 连续两天即拉漂移评审；
3σ 异常占比>1% 或新枚举值>0.5% 即阻断训练。

第三层：标签与特征

人工抽检一致性<92% 重标；
TOP20 特征相关系数周波动>0.05 黄名单，>0.1 黑名单。

第四层：合规与业务反馈

敏感字段未脱敏率>0 即合规告警；
线上负向率提升>20% 触发回滚。

所有阈值均通过过去 12 个月历史数据 P99 分位+业务容忍度双校准，每月召回率保持在 95% 以上，误报率控制在 3% 以内。告警触发后，自动创建 JIRA 工单，指派数据 owner、算法 owner 和我三方，2 小时内给出止血方案，24 小时内输出复盘报告，确保模型退化不超过一个时间窗。”

拓展思考

阈值动态化：用“滚动基线”替代固定阈值，节假日、大促、疫情等突发场景自动放宽 PSI 至 0.25，防止误报。
成本折衷：对高成本实时特征，允许缺失率放宽到 10%，但同步在模型侧加“缺失指示器”兜底，保证 AUC 下降 <0.3%。
多模态场景：图文多模态产品需额外监控“图片重复率”“OCR 空识率”，避免内容农场批量盗图导致特征失效。
合规升级：2024 年《生成式 AI 服务管理暂行办法》要求对训练数据做“来源可追溯”，需在监控看板加“数据源指纹”字段，缺失即触发合规红线。