在模型上线后,您会监控哪些关键的输入、中间层和输出指标?
解读
面试官想通过“上线后监控指标”考察三件事:
- 你是否把模型当成持续迭代的“活体”,而非一次性交付;
- 你是否能把算法语言(loss、AUC)翻译成业务语言(投诉率、GMV);
- 你是否熟悉国内真实生产环境的“坑”——数据漂移、内容安全、算力配额、合规审计。
回答必须体现“三层穿透”:输入层防“脏数据”、中间层防“模型腐”、输出层防“用户体验崩”,并给出可落地的阈值、告警、降级策略。
知识点
-
输入层
- 数据漂移:PSI、KL 散度、特征覆盖率、缺失率、异常值占比。
- 合规:个人隐私字段命中、敏感词过滤通过率、人脸/声纹授权率。
- 成本:QPS 与带宽、GPU 显存占用、离线同步延迟。
-
中间层
- 模型健康:实时 AUC、Calibration 误差、Prediction Entropy、SHAP 均值漂移。
- 稳定性:PSI<0.1、Prediction Latency P99、GPU Utilization、OOM 次数。
- 安全:对抗样本检测通过率、模型窃取攻击异常调用量。
-
输出层
- 业务:CTR、转化率、客单价、GMV、投诉率、差评率、退货率。
- 用户体验:首屏耗时、结果相关性人工评分、推荐重复度。
- 合规:内容安全审核通过率、黄反政敏召回率、算法备案“双清单”一致性校验。
-
国内特色
- 网信办 6 个月“算法备案”复核,需留存“模型版本+评估报告+线上指标”三联档。
- 工信部《生成式 AI 管理办法》要求对 AIGC 输出做 7×24 小时关键词回扫,命中即熔断。
- 等保 2.0 要求日志留存≥180 天,敏感字段需脱敏后落库。
答案
上线后我会建立“1 张看板 +3 条红线 +5 分钟定位”的监控体系,分层指标如下:
-
输入层
- 数据漂移:核心特征每日 PSI>0.1 即触发黄色告警,>0.25 自动回滚到昨日模型。
- 合规扫描:个人隐私字段未脱敏率>0.5% 直接熔断,同步推送法务工单。
- 成本:离线同步延迟>30 min 或 GPU 显存占用>85% 连续 5 min,自动扩容并通知 SRE。
-
中间层
- 模型健康:实时 AUC 与离线差距>3 个百分点且持续 2 小时,触发“影子模型”切换。
- 稳定性:Prediction Latency P99>200 ms 或 OOM 次数>3 次/小时,立即降级到轻量模型。
- 安全:对抗样本检测通过率<95% 或异常调用量突增>10 倍,启动 WAF 限流并人工复核。
-
输出层
- 业务:CTR 日环比下跌>5% 且持续 4 小时,自动拉起“数据-模型-运营”三方会战。
- 用户体验:首屏耗时>1.2 s 或人工相关性评分<3.5/5,触发前端缓存兜底策略。
- 合规:内容安全审核召回率<98% 或出现监管点名关键词,30 秒内熔断输出并启动应急公关流程。
所有指标统一接入 Prometheus+Grafana,告警通道绑定飞书、短信、电话三级升级,日志落 ClickHouse 供 180 天内监管审计。每周出一份《模型健康度白皮书》,同步给业务、法务、合规三方,实现数据-模型-产品闭环迭代。
拓展思考
-
如何区分“正常业务波动”与“模型失效”?
可引入“双重对照”:A) 随机保留 5% 流量走旧模型,B) 同时跑“特征屏蔽”实验,若新模型相对旧模型显著下跌且特征屏蔽组无变化,则判定模型腐化,否则归因为业务节奏。 -
大模型时代,输出层监控从“结果”延伸到“生成过程”,需引入 Token-level 置信度、幻觉检测、事实核查 API,把“可信分数”外露给用户,降低合规风险。
-
监控指标不是越多越好,建议用“成本-收益”矩阵做减法:每增加一个指标,必须回答“谁看、谁决策、谁背锅”,否则容易陷入“告警海洋”导致研发疲劳。