如何评估摘要的 ROUGE-L 与人工一致性(κ 值)?

解读

面试官真正想考察的是:

  1. 你是否同时掌握自动指标与人工指标的互补价值,而非只背公式;
  2. 中文大模型落地场景下,如何低成本、可复现地完成两套评估,并能把结果翻译成业务语言(好/坏/不可信);
  3. ROUGE-L 的局限与 κ 值的陷阱有没有工程化对策,能否在 LLMOps 流程里闭环。

知识点

  1. ROUGE-L 本质:基于最长公共子序列(LCS)的 F1 值,侧重召回,对语序鲁棒,适合中文无分词错误场景。
  2. 中文特殊处理:必须先规范化(全角半角、简体繁体、数字单位、字母大小写),再用jieba 或内部领域词表分词,否则 LCS 会被“字级”噪声拉低。
  3. κ 值(Cohen’s Kappa):衡量两名标注员**“一致性”而非“正确性”,κ≥0.8 才被认为可用于黄金标准**;低于 0.6 必须重新修订标注指南。
  4. 三级标注体系
    信息充分性(主客观信息漏掉与否);
    忠实度(有无幻觉);
    流畅度(语法、指代、逻辑)。
    每级三档打分(0/1/2),先单篇双盲、后交叉讨论、最终锁定黄金标签
  5. 样本量公式:中文摘要任务按每千条摘要 3%–5% 抽检即可在 95% 置信度、±5% 误差内估计 κ;当总量>10 万条时,最低 400 篇就能稳定收敛。
  6. ROUGE-L 与 κ 的“不一致”场景:ROUGE-L 高但 κ 低,通常是同义改写或语序大调;ROUGE-L 低但 κ 高,则是关键词命中但冗余严重——这两种情况都要回写 prompt 或微调数据

答案

“我在上一家公司负责新闻摘要的 LLM 服务化,双轨评估流程如下:
第一步,自动指标。用内部中文 ROUGE-L 脚本,先对预测摘要与人工参考做规范化+分词,计算 F1;同时记录系统级、篇章级、段落级三个粒度,方便下钻定位 bad case。
第二步,人工一致性。抽取 5% 样本(约 500 篇),由三名外包标注员按信息充分性、忠实度、流畅度三维度 0/1/2 打分;使用Fleiss κ 计算一致性。首轮 κ 仅 0.58,发现是“忠实度”标准模糊,补充正负面幻觉示例 20 条后第二轮 κ 升至 0.82,达标。
第三步,对齐分析。把 ROUGE-L 分桶(<0.2、0.2–0.4、0.4–0.6、>0.6),发现高 ROUGE-L 桶中仍有 12% 的忠实度=0 的摘要;反向追踪发现 prompt 里“禁止扩展”指令缺失,增补否定式指令后幻觉率降到 3%。
第四步,LLMOps 闭环。把 ROUGE-L、κ 值、幻觉率全部推送到 Grafana 看板,低于阈值自动触发增量微调+标注指南迭代,实现持续监控。
最终线上 A/B 测试,用户停留时长提升 7.3%,投诉下降 40%,验证了双指标体系的可靠性。”

拓展思考

  1. ROUGE-L 的“中文同义词”盲区:可引入语义相似度模型(SimCSE-中文)做加权,构造 R-L-Sem 混合指标,与 κ 值的相关性可提升 18%
  2. κ 值只告诉我们“标得是否一致”,不告诉“标得是否正确”;可再抽样 5% 让领域专家做“真理标签”,计算Krippendorff’s α,当 α<0.8 时即使 κ 高也要重标
  3. 大模型自我评估:用 GPT-4 做“二刷裁判”,成本只有人工的 1/10,但需校准其偏差——先用 200 篇人工黄金标签拟合一个线性矫正层,再上线,可把机器-人工 κ 从 0.45 拉到 0.74,实现人机协同的轻量级监控