您会定期重新训练模型吗？触发条件是什么？（如数据漂移、性能下降） - 问题详情 - 创脉思

解读

面试官想验证三件事：

“我们会把重训纳入模型生命周期管理，分为‘例行节律’与‘应急触发’两条线。

例行节律
对金融、电商等高敏场景，采用‘双周小体检+季度大升级’：
- 小体检：每两周跑批PSI、KS、AUC对比基线，若连续两次PSI>0.2或AUC下降超3%，进入‘待观察’队列；
- 季度大升级：即使指标平稳，也强制用最新三个月全量数据重训一次，防止缓慢漂移，同时同步更新特征库与样本权重。
应急触发（OR门逻辑，任一满足即启动）
a. 数据漂移：PSI>0.25且持续3天，或特征分布Top10特征KL散度均值>0.3；
b. 性能下降：线上A/B金标准组AUC下降>5%，或业务核心指标（如授信通过率）偏离基线±2个百分点；
c. 外部事件：监管政策变化、竞品策略突变导致样本标签定义变更；
d. 数据合规：数据源因授权到期需替换，必须重新标注并训练。
成本与合规闸门
触发后先跑‘重训ROI评估’：预估GPU小时、标注费用、合规评审周期，若ROI<1:5则改用轻量级增量更新或蒸馏方案；所有重训须走公司内部‘模型变更单’，完成数据安全评估与网信办备案更新。
执行与回滚
采用影子模式运行新模型7天，对比金标准无差异后灰度10%流量，逐步扩量；同时保留旧模型热备，30分钟内可回滚。

通过这套机制，我们上一版风控模型在13个月内重训4次，累计把坏账率从2.8%降到2.1%，单次重训成本控制在8万元GPU预算+15人日标注，符合公司财务与合规要求。”