在什么情况下,您会选择对大模型进行微调而不是仅靠Prompt工程?
解读
面试官想验证三件事:
- 能否把“业务痛点—技术手段—资源代价”串成闭环,而不是只背概念。
- 是否具备“成本-收益-风险”三维权衡的产品视角,而非唯技术论。
- 对国内落地环境(数据合规、算力采购、标注人力、监管审批)是否有体感。
回答时要先给判断框架,再用 2–3 个真实可落地的国内场景举例,最后回扣 ROI 与合规。
知识点
- Prompt 工程天花板:任务复杂度、指令长度、上下文一致性、多轮稳定性、知识时效。
- 微调触发条件:
① 任务指标差距 > 业务容忍度(如客服召回率差 5%,直接丢单)。
② 私有数据占比高且不可出域(金融、医疗、政务内网)。
③ 交互格式强约束(须返回固定 JSON、调用链 ID、加密字段)。
④ 低时延高并发(<300 ms),Prompt 拼接过长导致线性增长延迟。
⑤ 品牌合规风险高,必须 100% 屏蔽敏感词、红线表述。 - 国内特有成本项:
- 算力:A100/H800 需通过信创名录,按卡/小时计费,训练 7B 模型 3 轮≈18 万元。
- 数据:标注员 80–120 元/千条,医疗专业标注 300 元/千条,需三级质检。
- 审批:生成式算法备案 20 个工作日,安全评估报告需第三方测评机构。
- 决策公式:
Δ指标价值 × 业务生命周期 − (微调成本 + 合规成本 + 维护成本) > 0 → 微调,否则 Prompt。
答案
我会用“四维门槛模型”快速判断:
- 指标缺口:线上 Prompt 方案在核心业务指标上距离及格线差 ≥3%,且该指标每提升 1% 可带来 ≥100 万元年化收益。
- 数据私密度:必须使用用户隐私或商业机密数据,无法走公有云大模型 API,只能本地部署。
- 格式合规:输出要符合监管模板(如人行 1104 报表字段),Prompt 无法 100% 稳定返回。
- 边际成本:预估微调一次性成本 30 万元,后续每月增量维护 2 万元,小于 Prompt 方案因长文本带来的 25% 额外推理费用。
当同时满足两条及以上,就启动微调。举例:
- 头部券商投顾助手:监管要求回复必须带“投资有风险”固定 27 字免责段,且不得出现未入库个股名称。Prompt 工程在 5000 轮测试中 7% 漏免责,触发合规警示。最终用 4 万条内部话术微调 13B 模型,召回率提升到 99.2%,一次性投入 28 万元,每年节省合规罚款及人工复核成本约 200 万元。
- 省级政务热线:需回答“新生儿落户”类问题,答案必须引用最新户籍条例第 X 条,且生成字数 <120 字。Prompt 方案平均 180 字且常 hallucination 旧条款。用 1.5 万条历史工单微调后,字数压缩到 110 字以内,准确率 96%,通过网信办算法备案,上线 3 个月减少人工坐席 30 人,年节省人力成本 360 万元。
若只满足一条或指标差距可用运营手段弥补,则坚持 Prompt 工程,把预算投入到数据闭环和运营策略,保证现金流安全。
拓展思考
- 混合策略:先 Prompt 上线跑数据,积累 2–3 万条真实 badcase,再低成本 LoRA 微调,形成“数据飞轮”,避免冷启动就重训。
- 信创适配:国内银行、电力要求国产 GPU(如寒武纪 MLU)推理,需提前验证微调后模型在国产芯片上的 INT8 量化精度损失,必要时牺牲 1% 指标换 100% 合规。
- 生命周期管理:微调模型上线后,建立“月度数据漂移监控—季度小版本增量训练—年度大版本升级”节奏,防止性能回退,同时把训练日志、数据血缘、版本哈希全部归档,方便监管飞行检查。