设计一个分层冻结实验,验证解冻前 6 层与解冻后 6 层的 PPL 差异。

解读

面试官想考察三件事:

  1. 参数高效微调(PEFT)分层解冻策略的理解深度;
  2. 能否用最小资源拿到可信结论,体现 LLMOps 中的“实验可复现、指标可量化”;
  3. 中文语料特点(字词分布、长度、领域漂移)是否做过功课,避免“英文实验直接搬”。

因此,答案必须给出可落地的实验框架,包含数据、训练、评测、统计检验四环节,并解释为什么选 PPL 而不是 BLEU/ROUGE。

知识点

  1. 分层冻结:Transformer 由 L 层组成,解冻前 6 层指仅更新 embed + layer0layer5;解冻后 6 层指冻结 embed + layer0(L-7),仅更新 layer(L-6)~layer(L-1) + head。
  2. PPL(困惑度):对生成式模型,PPL = exp(−1/N · Σlog pθ(xi|x<i)),越低越好;中文需用字符级分词避免切词器 OOV 导致指标抖动。
  3. 增量微调 vs 全量微调:百亿模型全量微调需 8×A100 80G×16 卡,成本 >3 万元/次;使用DeepSpeed ZeRO-3 + 激活检查点 + 混合精度可把显存压到 48 G 以内,单卡可跑 7B 模型。
  4. 统计显著性:两次实验随机种子不同,PPL 差值若 <0.3 可能来自噪声,需做配对 t 检验(p < 0.05)才算赢。
  5. 中文坑点
    • 百科类数据长句多,PPL 天然偏高,需按长度分层采样(≤128、129256、257512、≥513)各 25%,避免长度偏差。
    • 领域漂移:金融、医疗实体词 p(x) 低,拉低整体 PPL,需领域标签加权或单独报告子集 PPL。

答案

实验设计分五步,全部脚本用国内可稳定下载的镜像源(清华 TUNA、阿里云)即可复现。

  1. 数据准备

    • 选 5 GB 高质量中文语料:WuDao 200 GB 中随机抽 2 GB + 自建业务数据 3 GB(已脱敏)。
    • 长度分层 + 领域分层方法重采样,得到 1000 万字符,对应约 40 万条样本。
    • 划分固定验证集 5 万字符,确保两次实验用同一验证集,排除数据差异。
  2. 基线训练

    • 模型:Baichuan-7B(已获国内备案,可商用)。
    • 框架:PyTorch 2.1 + Transformers 4.36 + DeepSpeed 0.12,启用 ZeRO-3 offload,单节点 8×A100 40G。
    • 超参:lr=2e-5,warmup=3%,cosine decay,batch=2M token,训练 1 epoch ≈ 6 小时,成本 800 元。
  3. 实验组 A(解冻前 6 层)

    • 冻结 layer6layer31 全部权重,仅更新 embed + layer0layer5 + lm_head。
    • 其余超参与基线完全一致,训练后得到模型 A。
  4. 实验组 B(解冻后 6 层)

    • 冻结 embed + layer0layer25,仅更新 layer26layer31 + lm_head。
    • 同样 1 epoch,得到模型 B。
  5. 评测与统计

    • 固定验证集上计算字符级 PPL,重复 3 个不同随机种子,取平均。
    • 结果示例:
      – 基线 PPL = 12.8
      – 解冻前 6 层 PPL = 11.9(↓0.9)
      – 解冻后 6 层 PPL = 11.4(↓1.4)
    • 配对 t 检验:p=0.018 < 0.05,解冻后 6 层显著优于解冻前 6 层
    • 结论:在 7B 模型 + 中文通用语料场景下,解冻高层对降低 PPL 更有效,与英文结论一致;若业务数据领域性极强,可再做一次领域消融

拓展思考

  1. 如果换成 130B 模型,单卡显存无法容纳,可把实验改成LoRA 分层注入
    • 前 6 层 LoRA rank=64,后 6 层 LoRA rank=64,其余层 rank=0;
    • PPL 差值 + 下游任务准确率联合决策,避免过拟合训练集。
  2. 生产落地时,PPL 低不一定体验好,需加人工偏好对齐
    • 用 5k 条业务 prompt,让标注员打分,训练 Reward Model;
    • 解冻策略与 PPL 实验结果作为初筛,再用强化学习二次微调,形成“指标+体验”双轮驱动。
  3. 合规角度:实验数据若含用户生成内容,需先做敏感词过滤 + 去标识化,并在实验报告里留痕,满足《生成式 AI 服务管理暂行办法》第 7 条“数据来源合法”要求。