如何构建自动评分器并给出可解释报告?
解读
在国内大模型落地场景中,自动评分器(Auto-Evaluator)是 LLMOps 闭环的核心组件:它必须对微调后或 Prompt 迭代后的模型输出进行量化打分,同时向业务、算法、合规三方提供可解释、可溯源、可审计的报告,否则模型无法持续上线。面试时,考官想确认候选人是否能把“学术指标”转成“生产指标”,并兼顾数据安全、计算成本、中文语义、监管红线四大约束。
知识点
- 评分目标三角:事实正确性、指令遵从度、价值观安全性
- 三层信号:①规则信号(正则、关键词、JSON 校验);②模型信号(微调小模型、ERNIE-Reward、ChatGLM-RM);③人类信号(众包标注、专家黄金集)
- 中文特异:①繁简转换;②拼音谐音歧义;③政策敏感词库(网信办 2023 年 185 号文)
- 可解释框架:①LIME/SHAP 做 token 级归因;②思维链追溯(Prompt 里加“请逐步思考并给出得分依据”);③对比报告(基线模型 vs 新模型,同一条输入双列输出)
- 工程化:①评分服务必须<200 ms,采用 ONNX+TensorRT 加速;②报告自动生成 PDF+HTML 双格式,数字水印+国密 SM3 摘要,防篡改;③敏感输出走 NACOS+ KMS 脱敏,日志不落盘
- 合规:①个人信息匿名化(GB/T 35273-2020);②生成内容标识(《深度合成规定》2023 年 15 条);③A/B 测试需向省级网信办事前备案
答案
我给出一个在电商智能客服场景落地的完整方案,分六步:
-
需求拆解
业务方关心“答案是否解决用户售后问题”,因此定义三维可量化指标:- 事实正确性(0-5 分):能否准确提取订单号、商品状态
- 指令遵从度(0-5 分):是否按模板返回“退款时效+操作路径”
- 安全性(0/1 分):是否出现“假货”“维权群”等敏感引导词
总分 =(正确性 + 遵从度)× 安全性,区间 0-10,≥8 分可上线
-
数据准备
- 从线上拉取脱敏会话 10 万条,用正则+人工双校验,产出 5 千条黄金集
- 引入对抗样本:含拼音“tui kuan”、谐音“退k 群”等,确保评分器鲁棒
-
评分器模型
- 训练轻量级中文 Bert-Reward(110 M 参数),损失用排序对比损失(pair-wise margin=0.5)
- 为兼顾可解释,顶层加Attention Pooling,输出 12 层权重供后续归因
- 训练数据:黄金集 5 k + 开源中文 Helpful&Harmless 30 k,混合精度 fp16,2 张 A100 训练 3 小时
-
规则兜底
- 正则校验订单 18 位数字、退款链接域名是否官方
- 敏感词采用AC 自动机,词库来自网信办 185 号文+企业自定义黑词 1.2 万条
- 规则与模型双通道并联,任一通道判 0 分则整体 0 分,确保安全优先
-
报告生成
- 每条样本生成三段式解释:
① 评分摘要:总分 8.5,事实 5/5,遵从 3.5/5,安全 1/1
② 关键证据:高亮触发“7 天无理由”关键词,Attention 权重 0.42
③ 改进建议:建议补充“退货物流单号”以提升遵从度 - 报告走Jinja2 模板渲染,PDF 嵌入国密 SM3 水印,HTML 供前端实时查看
- 全量报告每日 06:00 自动推送至飞书群,并上传内部 MinIO 归档,保存 90 天
- 每条样本生成三段式解释:
-
线上闭环
- 评分器以** sidecar 容器**部署,GPU 池化后 QPS>800,P99 延迟 120 ms
- 若日均分<7.5 连续 3 天,自动触发回滚策略:关闭新模型灰度,创建 Incident
- 每季度接受第三方合规审计,出具可解释报告白皮书,用于网信办年审
通过以上六步,我们把“黑盒大模型”变成了可度量、可解释、可审计的业务组件,上线 3 个月客服满意度提升 9.7%,投诉率下降 42%,并一次性通过省级深度合成备案。
拓展思考
- 当评分器本身出现偏见(例如对某地方言回复系统打分偏低),可采用对抗再训练:在损失里加群体公平性正则,确保不同地域用户平均分差异<0.3
- 若业务扩展到医疗问诊,需引入执业医生人工复核,自动评分仅作初筛,且报告必须加盖电子签章,符合《互联网诊疗监管细则(2022)》
- 未来可探索合成数据+联邦学习:让评分器在数据不出域的前提下,共享梯度,解决跨行业样本稀缺问题,同时满足个人信息保护法第 38 条跨境评估要求