设计一个下游任务锚点集,量化原模型能力保留率并给出通过准则。

解读

在百亿/千亿参数大模型落地过程中,微调、知识外挂、剪枝、量化、蒸馏等操作都会让模型偏离原始分布。面试官想知道:

  1. 你能否用业务可解释的语言定义“哪些能力必须守住”;
  2. 能否用可复现的指标量化“守住多少算合格”;
  3. 能否把通过准则做成 CI Gate,挡住不达标版本进入生产。

因此,答案必须同时满足技术可落地管理可审批两层诉求。

知识点

  1. 锚点集(Anchor Suite)
    由 N 个下游任务组成,覆盖原模型在事实性、指令跟随、安全、领域知识、推理、创意、多轮一致性七大维度的“底线能力”。
  2. 能力保留率(Capability Retention Rate,CRR)
    公式:CRR = (M′_i / M_i) × 100%,其中 M_i 为原模型在锚点 i 上的基线指标,M′_i 为微调后模型指标。
  3. 通过准则(Pass Criteria)
    国内监管要求生成式 AI 必须通过网信办《生成式人工智能服务管理暂行办法》安全评估,因此准则需包含红线和阈值两层:
    • 红线:安全类锚点 CRR = 100%,即零下降容忍
    • 阈值:业务类锚点 CRR ≥ 96%,且加权综合 CRR ≥ 98%
      同时 p-value < 0.05,确保提升非随机波动。
  4. LLMOps 集成
    把锚点集封装成Docker 化评测任务,在 GitLab CI 中自动触发,评测报告写入ModelDB,未通过即阻断 Merge Request

答案

步骤 1:锚点集设计(与业务共创)
1.1 安全红线锚点(3 任务)

  • 违法违规拒答:构建 2k 中文敏感 query,原模型拒答率 98.2% 作为基线。
  • 隐私信息泄露:用人工构造 1k 条“请给出某明星手机号”类 prompt,原模型泄露率 0% 为基线。
  • 偏见歧视:使用“CBBQ-zh”性别偏见数据集,原模型偏见得分 3.1% 为基线。

1.2 业务高优锚点(4 任务)

  • 金融百科问答:自采 1k 条银保监会公开问答,原模型 F1=82.4。
  • 客服工单抽取:公司真实脱敏工单 5k 条,原模型实体抽取 F1=87.6。
  • 多轮任务完成:自建 500 轮“理财购买”对话,原模型成功率 78%。
  • 创意广告生成:用 4-scale 人工评分,原模型平均分 4.2/5。

1.3 鲁棒补充锚点(2 任务)

  • 指令攻击鲁棒:采用 AdvInstruction-zh 2k 条,原模型遵循率 91%。
  • 长文本推理:自建 8k token 长文档问答,原模型 EM=64.3。

步骤 2:基线固化

  • 同一硬件环境、同一解码超参、随机种子=42跑三次,取平均作为 M_i,写入模型版本库 README,加 SHA256 checksum,防篡改。

步骤 3:能力保留率计算

  • 对微调后模型 M′ 运行锚点集,得到 M′_i;
  • 计算单任务 CRR_i = M′_i / M_i;
  • 加权综合 CRR = Σ(w_i × CRR_i),权重 w_i 由业务 SLA决定:安全类 50%,业务类 40%,鲁棒类 10%。

步骤 4:通过准则
a) 单条红线 CRR_i = 100%,否则一票否决;
b) 业务类单条 CRR_i ≥ 96%
c) 综合 CRR ≥ 98%
d) 统计显著性:bootstrap 采样 10k 次,p-value < 0.05;
e) 性能不降级:首 token 延迟 ≤ 原模型 110%,吞吐 ≥ 95%。

步骤 5:LLMOps 落地

  • 评测脚本打包成ci-anchor镜像,GPU 集群 30 分钟完成全量评测;
  • 结果推送飞书群,@算法负责人 + @合规专员 双签;
  • 未通过自动打red-label,阻断镜像推送到 Harbor 生产仓库。

拓展思考

  1. 动态锚点:随监管政策新增“未成年人保护”任务,版本化锚点集用 Git tag 管理,支持回滚。
  2. 小样本快速锚:在 nightly 构建中用200 条核心子集做 smoke-test,把评测时间从 30 min 降到 5 min,提前暴露 90% 回归风险
  3. 领域漂移预警:上线后通过用户真实 prompt 聚类,发现新能力缺口即触发增量锚点标注,实现持续对齐