如何监控模型漂移并触发重训？ - 问题详情 - 创脉思

解读

在用户运营场景里，“模型”通常指生命周期价值预测（LTV）、流失预警、营销响应（Uplift）等核心算法。模型漂移意味着线上真实用户行为分布与训练集发生偏离，导致预测失真、策略失效。面试官想考察的是：你能否把数据监控、业务指标、自动化机制串成闭环，既懂技术逻辑，又能落地到运营KPI。

知识点

漂移类型
- 数据漂移（特征分布变）
- 概念漂移（Y与X关系变）
- 标签漂移（Y分布变，运营场景少见，但优惠券敏感度会随预算调整而变）
监控指标
- PSI（Population Stability Index）>0.2 视为显著漂移
- KS下降>5个百分点或AUC下降>3个百分点触发橙色预警
- 业务层北极星指标：模型分群后的次日留存率、转化率、ROI连续7天低于基线2个标准差
监控对象
- 实时特征：近7日登录次数、近30日GMV、优惠券使用率
- 标签延迟：流失定义需T+30天才能完全标注，必须做延迟标签补偿
触发重训的“双阀值”机制
- 技术阀值：PSI>0.25 且 KS下降>8个百分点
- 业务阀值：模型分群的高价值人群7日GMV贡献占比下降相对10%
  两者同时满足才启动重训，防止过度消耗GPU预算
MLOps落地
- 调度：Airflow每日凌晨拉取Hive表，计算PSI、KS，结果写回MySQL
- 告警：企业微信机器人推送**“模型漂移日报”**，@算法负责人+运营负责人
- 重训：自动拉取最新6个月数据，触发T+1离线训练，产出灰度AB模型
- 回滚：灰度7天，若核心运营指标未提升显著性p>0.05，则自动回滚旧模型

答案

“我在上一家公司负责流失预警模型，监控体系分三步：
第一步，每日零时通过Airflow跑批，计算核心特征的PSI与模型KS，结果同步到内部DataPortal；
第二步，设置双阀值——PSI>0.25且高价值人群7日GMV占比下降10%，即触发企业微信红色告警；
第三步，告警后自动拉起T+1重训任务，使用最近6个月数据，经特征自动筛选、超参优化后产出灰度模型，在小流量桶（5%用户）运行7天，若实验组流失率下降显著（p<0.05）则全量更新，否则回滚。整个流程零人工干预，把模型迭代周期从30天缩短到7天，挽留成本降低18%。”

拓展思考

冷启动场景：新功能上线导致特征断层，可先用规则模型兜底，同步积累7天数据后再重训，避免“无米之炊”。
概念漂移的慢变量：例如用户隐私政策收紧，导致埋点缺失，需提前做特征重要性备份，一旦核心特征缺失率>30%，立即切换轻量级模型（如GBDT+少量可用特征）。
成本权衡：重训一次需200 GPU小时，若业务指标仅下降1%，可优先采用**模型校准（Platt Scaling）而非全量重训，节省60%**计算费用。