当模型线上表现突然下降时,您会如何排查是数据问题、模型问题还是业务变化导致的?

解读

面试官想验证三件事:

  1. 你是否能在高压线上故障场景下快速定位根因,而不是“拍脑袋”归因;
  2. 你是否能把技术排查动作转化为可落地的“产品动作”,兼顾业务止损与长期治理;
  3. 你是否熟悉国内真实数据链路(埋点→数仓→特征平台→推理服务)与合规红线(个人信息保护、数据出境评估)。
    回答必须体现“时间切片+量化对比+闭环治理”的三段式思维,且每一步都能说出可执行的国内工具或平台。

知识点

  1. 黄金5分钟指标:对比故障当日与T-7、T-14同环比,先确认“下降”是否显著(置信区间>2σ)。
  2. 数据漂移检测:PSI、KS、Chi-square;国内常用阿里云Pai-Studio、火山引擎FeatureStore一键出报告。
  3. 特征穿透:把线上请求日志(含user_id、request_id)与离线特征表join,检查高权重特征缺失率、异常值比例;注意脱敏后方能拉取日志,符合《个人信息保护法》第38条。
  4. 模型稳定性:A/B bucket残差分析、预测分布直方图尾部抖动;若用TensorRT加速,需校验校准表是否过期。
  5. 业务侧突变:
    – 运营活动:优惠券门槛、首页入口位置,查内部“运营日历”即可;
    – 竞品突袭:微信小程序指数、巨量算数关键词热度;
    – 政策舆情:网信办“清朗”专项行动导致关键词屏蔽,引起query分布偏移。
  6. 止损开关:国内云厂商均支持“灰度回滚+白名单”双保险,回滚窗口控制在30分钟内,避免触发SLA扣款。
  7. 合规留痕:所有日志拉取要走内部DLP审批,排查结论需写入“算法安全事件报告”,以备市监局算法备案抽查。

答案

我会按“30分钟定位、2小时止损、1天复盘”的节奏推进:

  1. 30分钟定位
    ① 量化:在北极星指标大盘截取故障前后各6小时数据,用PSI>0.2或KS>0.1快速判断是否数据漂移;同步看业务侧UV、转化率是否同步下跌,排除“业务主动缩量”假象。
    ② 拆分维度:按渠道(iOS/Android/小程序)、用户分层(新客/老客)、地域(华东/华南)下钻,若仅小程序PSI异常,则锁定“小程序版本更新”方向。
    ③ 特征穿透:把request_id与离线特征表join,重点检查近7日新增的“用户实时兴趣标签”缺失率是否从0.3%飙升至18%,若确认,则基本坐实数据问题。

  2. 2小时止损
    ① 若数据问题:立即切到备用特征快照(国内特征仓库均支持T-1快照一键切换),并暂停实时兴趣标签的在线生产任务;同步给研发提hotfix,回补缺失字段。
    ② 若模型问题:触发canary回滚,把模型版本号从v2.3回退至v2.1,灰度5%流量观察,确认指标回升后再全量;回滚前先用“白名单”方式让核心KA客户不受影响,避免客诉升级。
    ③ 若业务变化:发现是运营投放了“高折扣”人群导致价格敏感型用户占比提升,模型原样本权重失效;此时不走回滚,而是临时把价格敏感度特征权重下调30%,2小时内上线热补丁。

  3. 1天复盘
    ① 根因报告:用“5W2H”模板写清When/Where/What/Why/Who/How/How much,附数据漂移报告、回滚记录、业务侧活动截图,抄送法务与合规组。
    ② 数据-模型闭环治理:
    – 特征监控:在火山引擎FeatureStore配置“缺失率>1%即告警”规则;
    – 模型监控:打开阿里云ModelRegistry的“预测分布Z-score”告警,阈值设为±3σ;
    – 业务同步:把运营活动排期表接入飞书日历,活动上线前48h自动@算法团队评估样本偏差。
    ③ 复盘会上给出三条OKR:下季度PSI>0.2的线上故障从3次降到0次;特征缺失率告警响应时长从平均90分钟降到30分钟;运营活动前置评估覆盖率100%。

拓展思考

  1. 如果模型是生成式大模型而非判别式模型,如何定义“表现下降”?
    可引入“事实一致性率”(FCR)与“安全违规率”双指标,用人工标注+规则模型混合打分,下降超过基线5%即触发排查。
  2. 遇到“数据未漂移、模型未更新、业务无活动”的三无场景,该如何继续深挖?
    重点排查“链路延迟”:检查推理服务日志中的“特征落盘时间”与“预测时间”差值,若从50ms暴涨到500ms,可能导致特征穿越,引起标签泄漏;该问题在国内高并发大促场景已出现多次。
  3. 如何提前发现“缓慢漂移”而非“突然下降”?
    建立“周级CUMSUM控制图”,把PSI累积和算法嵌入Airflow每周调度,一旦累积误差突破阈值即发出“黄灯”预警,实现“渐变式”风险的可视化。