微调所需的数据量、成本和时间成本分别是多少?如何评估其性价比?
解读
面试官想验证三件事:
- 你是否能把“算法语言”翻译成“商业语言”,把技术参数变成可算账的ROI;
- 你是否熟悉国内真实数据供给链(标注团队、算力租赁、监管红线);
- 你能否在“够用”与“过剩”之间做权衡,给出可落地的节奏,而不是背论文数字。
因此,回答必须给出“区间—杠杆—决策门槛”三层结构,并附带合规与风险视角。
知识点
-
数据量:
① 继续预训练(Continue Pre-training)需要百亿级token,企业极少触碰;
② 通用微调(Instruction Tuning)国内落地区间 5k~50k 条指令对,覆盖 20+ 业务意图即可启动;
③ 任务型微调(Task-specific)如实体抽取、分类,中文场景 1k~5k 条高质量标注样本即可逼近边际收益拐点;
④ 强化学习人类反馈(RLHF)需要 2k~5k 组排序对,外加 50~100 人日的主观评估。 -
成本:
① 标注:中文专业领域(医疗、法律)单条 4~12 元,通用领域 0.8~2 元;
② 算力:A100-80G 现货租赁 12~15 元/卡时,7B 模型全量微调 8 卡×20h≈2 000 元;lora/qlora 可压到 300 元以内;
③ 人力:算法 1+工程 1+产品 0.5 人月,北上广深成本 6~8 万/月;
④ 合规:敏感语料清洗+网信办备案第三方审核,一次性 3~5 万。 -
时间:
数据准备 2~4 周(含一轮回流),训练 1~3 天,评估+灰度 1 周,全流程 1~1.5 月可上线 MVP。 -
性价比评估公式(国内版):
ROI = (业务指标提升 × 单指标商业价值 − 推理增量成本) / (标注+算力+人力+合规一次性成本)
门槛线:ROI≥1 且回本周期≤6 个月;对上市公司还需满足“合规披露无负面”这一硬约束。
答案
“以中文 7B 级私有模型在客服场景落地为例,我们的经验数字是:
- 数据量:先用 3k 条高质量对话做 lora 微调,覆盖 Top-15 意图,边际 F1 可提升 18%;再补 2k 条 bad case 回流,整体提升收敛到 23%,此时继续加数据 ROI<1,即可停止。
- 成本:标注 3k×1.5 元=0.45 万;算力 3090-24G 租 4 卡×12h=0.12 万;算法+工程人力 0.5 人月=3 万;合规审核 1 万;合计 4.6 万。
- 时间:数据 2 周、训练 1 天、评估+灰度 1 周,共 3 周上线。
- 性价比:上线后转人工率下降 7%,每月节省坐席 40 人×6k 元=24 万,增量 GPU 推理成本 1.2 万/月,静态回本 0.3 个月,ROI≈52,完全符合公司‘单项目 6 个月内回本’的财务红线,因此 3k 条数据就是该阶段的‘最优解’。”
拓展思考
- 数据杠杆:与其堆 10k 条普通样本,不如用 500 条“高不确定性”样本做主动学习,往往能用 5% 成本拿到 80% 效果;
- 算力杠杆:国内云厂商 A100 现货紧张,可提前锁定包年 8 卡套餐,价格能压到 7 元/卡时,节省 40% 预算;
- 合规杠杆:如果场景涉及“生成内容可公开”,优先走生成式算法备案“绿色通道”,一次性投入 3 万,可避免下架风险带来的百万元级商誉损失;
- 退出机制:在 PRD 里预设“性能 plateau 阈值”,当连续两周核心指标提升<0.5% 或用户负面反馈>2% 时,触发“冻结微调、转规则兜底”决策,防止无意义烧钱。