如何评估一个大模型在特定垂直领域(如法律、医疗)的专业能力?

解读

面试官想验证三件事:

  1. 你是否能把“专业能力”拆成可量化、可复现、符合国内监管要求的指标;
  2. 你是否知道垂直领域与通用场景在数据、评测、合规上的差异;
  3. 你是否具备把评测结果翻译成产品决策(上线/迭代/降级)的能力。
    回答必须体现“AI产品经理”视角:技术深度够用、指标能落地、风险可闭环。

知识点

  1. 三层评测框架:基础语言层、领域知识层、场景任务层。
  2. 中文垂直领域公开基准:CAIL、CHIP、MedQA-CN、LexGLUE-CN、CMB、CJRC 等。
  3. 合规红线:医疗不得输出“诊疗结论”,法律不得输出“律师意见”;评测需通过《生成式AI管理办法》双清单(语料安全+生成内容安全)过滤。
  4. 数据闭环:真实业务回流数据 > 公开题库 > 构造题库;必须做“去隐私化+双盲人工复核”。
  5. 量化指标:
    知识型——Accuracy、F1、ROUGE-L、BERTScore;
    决策型——AUC、Recall@K、Precision@K;
    安全型——违规率、幻觉率、拒答率;
    体验型——专家一致性(Krippendorff α≥0.8)、用户满意度(≥4.2/5)。
  6. 对比基线:同一领域“上一代自有模型”“开源同尺寸模型”“云端API同尺寸模型”三档对标,防止“看似提升、实则行业掉队”。
  7. 成本维度:每1%准确率提升带来的标注成本、GPU增量、推理延迟,必须算ROI。
  8. 迭代机制:线上bad case 24h内回扫→自动聚类→人工复核→数据增补→周级微调;连续两周无改善即触发“降级或熔断”。

答案

我会把评估拆成“4步12指标”,确保结论可落地、可审计、可复现:
第一步,定范围:拉出业务最关心的3类任务。以法律为例,选“法条问答、案情预测、合同审查”。
第二步,建题库:
① 用“2022-2023年公开裁判文书”切片出1万段事实描述,经执业律师脱敏、双盲标注,形成标准问-答对;
② 引入CAIL2023竞赛题2000道做对抗测试;
③ 自采企业客户匿名合同500份,让律师圈出高风险条款,形成“合同审查金标”。
所有数据通过网信办“双清单”敏感词过滤+人工复核,确保合规。
第三步,跑评测:

  1. 知识正确率:Top1准确率≥85%,Top3命中率≥95%;
  2. 幻觉率:用NLI模型判断“不可溯源陈述”比例≤5%;
  3. 安全违规率:调用省级网信办提供的合规API,违规输出≤0.3%;
  4. 专家一致性:随机抽样10%由3名执业律师背对背打分,Krippendorff α≥0.8;
  5. 推理成本:A100 80G单卡QPS≥20,TP99延迟≤800 ms;
  6. 业务价值:在合同审查场景,帮律师节省工时≥30%,客户满意度≥4.2。
    所有指标必须同时击败“上一代自有模型”+“开源同尺寸模型”+“云端API同尺寸模型”三档基线,才算“专业能力达标”。
    第四步,上线后闭环:
    ① 线上埋点记录“用户二次编辑率”“律师删除率”,作为反向信号;
    ② 每周自动聚类bad case,标注团队24h内完成复核,新增≥50条即触发微调;
    ③ 连续两次迭代未提升核心指标,立即降级到“辅助建议”区域,并弹窗提示“仅供参考,不构成法律意见”,确保合规。
    用这套流程,我们曾在6周内把法律大模型幻觉率从11%压到4.2%,合同审查工时节省38%,同时通过监管沙盒备案,实现商业化落地。

拓展思考

  1. 多模态延伸:当垂直领域引入PDF扫描件、CT影像后,需把“专业能力”定义扩展到图文一致性、OCR纠错率、影像-文本交叉幻觉,指标层要新增“跨模态对齐F1”。
  2. 动态更新:法律每年新增20%+司法解释,医疗每年更新多版指南。需建立“版本感知评测”——把新增法规/指南自动转为考题,模型若连续两周在新规题上准确率<75%,即触发“知识蒸馏+增量预训练”流程,而不是等到季度大版本。
  3. 责任分担:一旦模型输出被监管机构认定为“违规”,产品层需具备“可追溯日志+模型版本+输入prompt”一键回滚能力,否则企业面临《生成式AI管理办法》最高10万元罚款与暂停服务风险。AI产品经理要在PRD里提前写好“责任边界条款”与“日志保留周期”,把算法、法务、运维三方拉齐。