如何设计控制实验验证“先 CPT 后 SFT”相比“混合训练”的幻觉率差异?

解读

面试官想考察三件事:

  1. 是否真正理解**CPT(Continue Pre-Training)SFT(Supervised Fine-Tuning)**在数据分布、优化目标上的本质差异;
  2. 能否把“幻觉率”这一主观指标拆解成可量化、可复现、可审计的评测体系;
  3. 是否具备LLMOps 工程思维,能在算力、数据、人力、合规四重约束下,用最小代价跑出统计显著的结论,并给出线上灰度方案。

一句话:不仅要“能跑实验”,更要“让老板敢签字上线”。

知识点

  1. 幻觉定义:国内落地场景采用“事实性错误+无法溯源”双准则,即模型输出与权威知识库冲突且检索链路无法召回支撑片段。
  2. CPT 核心:在通用语料上继续自回归训练,更新的是先验分布,对领域术语、句式、世界观做“润物细无声”式注入。
  3. SFT 核心:在高质量<指令,答案>对上最大化 token 似然,直接塑造指令遵循与输出风格,但容易过拟合标注员偏好。
  4. 混合训练:把 CPT 语料与 SFT 语料按一定比例拼在一起,一次性前向+反向,优点省算力,缺点梯度冲突导致“知识-指令”跷跷板。
  5. 幻觉率指标
    • 样本级:单条回答只要出现≥1 不可溯源的事实性错误即判负;
    • Token 级:错误 token 数 / 总生成 token 数,用于敏感场景(医疗、金融)的风险加权
    • RAG 溯源通过率:输出声明可检索召回支撑片段的比例,低于阈值即判幻觉。
  6. 统计功效:国内 GPU 资源紧张,需提前用pwr包做样本量估算,在α=0.05、power=0.8 下,幻觉率差异≥3% 即可检出显著性。
  7. 合规红线:实验数据须通过网信办“深度合成”备案基线,禁止直接使用用户隐私对话,须做脱敏+本地加密切片

答案

实验设计遵循“单变量、双盲、分层采样、线上回灌”四原则,共 6 步:

  1. 数据层
    a) 领域语料 D_cpt:取近 3 年国家部委公开公文、行业白皮书、中文维基去重后 80 G,经关键词+NER 过滤剔除涉密内容。
    b) 指令语料 D_sft:由 50 名通过安全考试的标注员,依据《生成式 AI 内容标注规范》撰写 10 k 条<指令,理想回答,引用片段>三元组,引用片段必须可追溯到可下载 PDF 页码
    c) 测试集 HalluBench:独立采样 2 k 条对抗性 query,覆盖数值、年代、专有名词、法律条文四类高幻觉风险,标准答案经三位专家交叉标注,一致性κ>0.85 方可入库。

  2. 基线模型
    统一使用已通过**《生成式人工智能服务管理暂行办法》备案的百亿参数开源底座**,固定随机种子、tokenizer、最大长度 4096,避免版本漂移

  3. 训练策略

    • A 组(先 CPT 后 SFT)
      ① CPT 阶段,lr=2e-5,cosine 衰减,训练 1 epoch,累计 8 k 卡时;
      ② SFT 阶段,lr=3e-6,warmup 10%,训练 3 epoch,累计 2 k 卡时。
    • B 组(混合训练)
      将 D_cpt 与 D_sft 按 4:1 拼接,一次性训练,总步数与 A 组总 token 数严格相等,lr 调度相同,确保算力对等
  4. 评测链路
    a) 离线评测:用 HalluBench 对每组检查点进行greedy 解码+温度 0.7 采样双通道,记录样本级幻觉率。
    b) RAG 溯源:每段声明调用自研混合检索(稠密+稀疏+图谱),若 top3 结果无命中且置信度<0.32,则判幻觉。
    c) 人工复核:随机抽取 10% 疑似幻觉案例,由外部律所+行业顾问双盲复核,防止评测作弊
    d) 统计检验:采用two-proportion z-test,若 p<0.05 且效应量 Cohen’s h≥0.2,则结论可进入上线评审

  5. 线上灰度
    通过流量染色把 5% 真实用户请求镜像到实验模型,不下发前端,仅记录日志;对比用户举报率、客服投诉率、事实纠错率三项业务指标,若 7 天内负面反馈差异<0.1%,方可全量。

  6. 可复现性
    所有脚本、随机种子、checkpoint、评测报告打包成Docker 镜像,上传至公司内部模型仓库,并生成LLMOps 数据血缘二维码,方便监管抽查。

拓展思考

  1. 若未来算力预算缩减 50%,可采用LoRA+rsLoRA组合,仅训练 0.1% 参数,但须重新估算有效秩是否足以捕获领域知识;此时幻觉率差异检出力可能下降,需改用配对自助法(paired bootstrap)降低方差。
  2. 当业务场景从“政务问答”扩展到“医疗问诊”时,幻觉代价由行政风险升级为人身安全,需把指标从“样本级”细化到**“症状级”,并引入医学知识图谱多跳一致性校验**。
  3. 长期看,先 CPT 后 SFT 虽然幻觉率低,但推理延迟增加 8%(因模型更庞大),需在知识蒸馏阶段做幻觉感知 loss,让学生模型对高幻觉 token 赋予更大惩罚,从而兼顾准确率与 RT;这一步可成为下一轮实验的假设