设计一个下游任务锚点集,量化原模型能力保留率并给出通过准则。
解读
在百亿/千亿参数大模型落地过程中,微调、知识外挂、剪枝、量化、蒸馏等操作都会让模型偏离原始分布。面试官想知道:
- 你能否用业务可解释的语言定义“哪些能力必须守住”;
- 能否用可复现的指标量化“守住多少算合格”;
- 能否把通过准则做成 CI Gate,挡住不达标版本进入生产。
因此,答案必须同时满足技术可落地与管理可审批两层诉求。
知识点
- 锚点集(Anchor Suite)
由 N 个下游任务组成,覆盖原模型在事实性、指令跟随、安全、领域知识、推理、创意、多轮一致性七大维度的“底线能力”。 - 能力保留率(Capability Retention Rate,CRR)
公式:CRR = (M′_i / M_i) × 100%,其中 M_i 为原模型在锚点 i 上的基线指标,M′_i 为微调后模型指标。 - 通过准则(Pass Criteria)
国内监管要求生成式 AI 必须通过网信办《生成式人工智能服务管理暂行办法》安全评估,因此准则需包含红线和阈值两层:- 红线:安全类锚点 CRR = 100%,即零下降容忍;
- 阈值:业务类锚点 CRR ≥ 96%,且加权综合 CRR ≥ 98%;
同时 p-value < 0.05,确保提升非随机波动。
- LLMOps 集成
把锚点集封装成Docker 化评测任务,在 GitLab CI 中自动触发,评测报告写入ModelDB,未通过即阻断 Merge Request。
答案
步骤 1:锚点集设计(与业务共创)
1.1 安全红线锚点(3 任务)
- 违法违规拒答:构建 2k 中文敏感 query,原模型拒答率 98.2% 作为基线。
- 隐私信息泄露:用人工构造 1k 条“请给出某明星手机号”类 prompt,原模型泄露率 0% 为基线。
- 偏见歧视:使用“CBBQ-zh”性别偏见数据集,原模型偏见得分 3.1% 为基线。
1.2 业务高优锚点(4 任务)
- 金融百科问答:自采 1k 条银保监会公开问答,原模型 F1=82.4。
- 客服工单抽取:公司真实脱敏工单 5k 条,原模型实体抽取 F1=87.6。
- 多轮任务完成:自建 500 轮“理财购买”对话,原模型成功率 78%。
- 创意广告生成:用 4-scale 人工评分,原模型平均分 4.2/5。
1.3 鲁棒补充锚点(2 任务)
- 指令攻击鲁棒:采用 AdvInstruction-zh 2k 条,原模型遵循率 91%。
- 长文本推理:自建 8k token 长文档问答,原模型 EM=64.3。
步骤 2:基线固化
- 用同一硬件环境、同一解码超参、随机种子=42跑三次,取平均作为 M_i,写入模型版本库 README,加 SHA256 checksum,防篡改。
步骤 3:能力保留率计算
- 对微调后模型 M′ 运行锚点集,得到 M′_i;
- 计算单任务 CRR_i = M′_i / M_i;
- 加权综合 CRR = Σ(w_i × CRR_i),权重 w_i 由业务 SLA决定:安全类 50%,业务类 40%,鲁棒类 10%。
步骤 4:通过准则
a) 单条红线 CRR_i = 100%,否则一票否决;
b) 业务类单条 CRR_i ≥ 96%;
c) 综合 CRR ≥ 98%;
d) 统计显著性:bootstrap 采样 10k 次,p-value < 0.05;
e) 性能不降级:首 token 延迟 ≤ 原模型 110%,吞吐 ≥ 95%。
步骤 5:LLMOps 落地
- 评测脚本打包成ci-anchor镜像,GPU 集群 30 分钟完成全量评测;
- 结果推送飞书群,@算法负责人 + @合规专员 双签;
- 未通过自动打red-label,阻断镜像推送到 Harbor 生产仓库。
拓展思考
- 动态锚点:随监管政策新增“未成年人保护”任务,版本化锚点集用 Git tag 管理,支持回滚。
- 小样本快速锚:在 nightly 构建中用200 条核心子集做 smoke-test,把评测时间从 30 min 降到 5 min,提前暴露 90% 回归风险。
- 领域漂移预警:上线后通过用户真实 prompt 聚类,发现新能力缺口即触发增量锚点标注,实现持续对齐。