一个完善的AI监控系统应该覆盖哪些维度?(数据、模型、服务、业务)

解读

面试官想验证三件事:

  1. 你是否把“监控”当成贯穿数据-模型-服务-业务四层闭环的体系工程,而非单点指标;
  2. 能否把技术语言翻译成可落地的监控产品需求,兼顾合规、成本与用户体验;
  3. 是否具备“事前-事中-事后”全周期视角,能提前暴露风险、快速止血并反哺迭代。

回答时要先给顶层框架,再分层展开关键指标、报警阈值、责任人、自动化动作,最后落到国内监管(算法备案、数据出境、个人信息保护)与业务损益。

知识点

  1. 数据层:数据质量、分布漂移、标注一致性、合规审计、血缘追溯。
  2. 模型层:离线指标、线上一致性、漂移检测、鲁棒性/对抗样本、可解释性、版本灰度、资源消耗。
  3. 服务层:SLA/时延、吞吐、实例健康、弹性伸缩、AB实验、回滚策略、日志与Trace。
  4. 业务层:核心KPI(转化率、GMV、逾期率、客诉率)、用户负反馈、公平性/歧视风险、成本收益、舆情。
  5. 国内合规:算法备案、深度合成标识、个人信息匿名化、数据出境评估、日志留存≥6个月。
  6. 工程化:指标平台、元数据管理、实时Flink/Spark、Prometheus+Grafana、OneAlert/飞书/企业微信分级告警、AutoRollback、混沌演练。

答案

“我会把AI监控系统拆成四层十二域,每一域都给出1-3个北极星指标、二级诊断指标、报警阈值与自动化动作,并配套国内合规检查清单。

一、数据层

  1. 数据质量:空值率、异常值率、重复率;空值率>1%触发告警,>5%自动暂停训练管道。
  2. 分布漂移:PSI、KS、KL散度;PSI>0.2触发“漂移日报”并@数据Owner,>0.3自动冻结模型上线。
  3. 标注一致性:双人标注一致性<90%触发重新标注任务;关键标签(金融“欺诈”、医疗“阳性”)一致性<95%直接升级P0。
  4. 合规审计:个人信息字段未脱敏率>0即阻断入库;数据出境接口调用异常>10次/小时通知法务。

二、模型层

  1. 离线-在线一致性:同一批样本离线AUC与在线AUC差异>0.02触发“模型校准”工单。
  2. 性能漂移:线上AUC连续7天下降累计>1%或单日>0.5%,自动回滚上一版本并通知算法负责人。
  3. 鲁棒性:对抗样本攻击成功率>5%触发安全加固需求池。
  4. 可解释性:金融风控场景下,高拒单样本(score<300)中特征贡献Top3缺失日志比例>1%即合规预警。
  5. 资源成本:单条请求GPU显存占用>500MB且连续1小时,自动弹窗提示成本优化。

三、服务层

  1. SLA:P99延迟>200ms或错误率>1%持续5min,触发二级告警并弹性扩容;>500ms或错误率>5%持续2min,触发一级告警并启动熔断。
  2. 流量镜像:核心模型100%流量镜像到影子集群,对比结果偏差>0.5%自动创建Diff Report。
  3. 版本灰度:灰度5%用户,核心KPI下降置信区间下限<-1%立即中止灰度。
  4. 日志与Trace:Trace缺失率>5%或Error Log环比>2倍,自动创建Jira工单并@SRE。

四、业务层

  1. 核心KPI:电商推荐GMV环比-3%且统计显著p<0.05,触发“业务复盘会”;金融模型贷后30天逾期率上升≥0.3pp,自动推送风控委员会。
  2. 用户负反馈:推荐“不感兴趣”点击率占比>5%或投诉工单含“歧视”关键词>3单/日,启动公平性审计。
  3. 舆情监控:微博/黑猫投诉24h内负面提及量>50且情感值<-0.5,自动升级至公关值班群。
  4. 成本收益:模型带来的增量利润<GPU+标注+人力成本的80%,触发“下线评审”。

合规兜底
所有监控日志存6个月,关键字段加密;算法上线前完成“互联网信息服务算法备案”,并在监控面板内置“备案号”字段,支持监管一键导出。”

拓展思考

  1. 如何把监控指标直接写进PRD的“验收标准”?——用“Given-When-Then”格式:Given PSI>0.2,When 持续2小时,Then 自动阻断模型上线并推送飞书卡片。
  2. 监控带来的成本与噪音如何平衡?——引入“动态阈值”:利用7天滑动平均+3σ,减少节假日峰谷误报;对高成本指标(鲁棒性扫描)采用采样+重要性加权。
  3. 多模型级联场景(先召回再精排)如何追踪责任?——在Trace里注入“模型链路ID”,任一环节告警可下钻到具体模型版本、特征快照与数据批次,实现分钟级根因定位。