请解释模型量化(Quantization)、剪枝(Pruning)和知识蒸馏(Distillation)各自的作用和适用场景。
解读
面试官问这道题,并不是想听你背定义,而是考察三件事:
- 你是否能把“技术动作”翻译成“业务收益”——省多少钱、提多少速、牺牲多少精度;
- 你是否知道在国内真实落地环境里(监管、芯片、云边端混合部署)该选哪一招;
- 你是否能把这三招放进产品迭代节奏里,而不是一口气全上。
因此,回答要“技术一句+收益一句+场景一句”,让面试官瞬间听到“你懂业务”。
知识点
- 模型量化:把FP32权重→INT8/INT4,计算位宽减半,内存带宽减半,在国产推理芯片(含NPU、ASIC)上普遍有3-8倍实测提速;代价是精度掉0.5-2个百分点,需要校准数据集+回灌测试。
- 剪枝:分结构化(整channel/block)与非结构化(稀疏0);结构化可直接掉FLOPs,适配华为昇腾、寒武纪等国内芯片;非结构化需配套稀疏算子,目前仅英伟达Ampere及以上、百度PaddleSparse有成熟支持。剪完要重训或微调,掉点更明显,但可压缩50-90%参数。
- 知识蒸馏:Teacher→Student,本质是“用精度换架构”,Student可以更小(MobileViT、TinyBERT)或更适合国产芯片算子约束;蒸馏过程=数据增强+Loss设计,通常不掉点甚至涨点,但训练成本高,需要GPU日级别重训。
- 国内合规点:量化后的INT8模型若用于金融、医疗,需重新做等保/算法备案;剪枝导致结构变化>30%,北京、上海网信办要求重新提交《模型变更报告》;蒸馏若引入外部Teacher,需确认Teacher数据源已获授权,避免“二次传播”风险。
答案
“这三招都是把大模型‘瘦身’上线,但产品打法完全不同。
量化是‘首选项’:上线前最后一环,用校准集把FP32转INT8,在昇腾310、阿里含光上实测延迟从120ms降到35ms,精度掉0.3%,符合金融实时风控<50ms的SLA,成本侧云实例从8核缩到2核,每月省3.2万。
剪枝是‘架构手术’:当芯片缓存只有8MB、模型>100MB时必须剪。我们去年在智能摄像头项目里做结构化剪枝,把YOLOv5s剪掉60%通道,模型从28MB→11MB,寒武纪220边缘端推理FPS从18提到42,满足公安布控>30FPS的硬指标;剪完重训7天,mAP掉1.1%,客户接受。
蒸馏是‘精度兜底’:要做国产化替代,Teacher是国外大模型,Student用国产芯片友好的TinyConv。我们在智能客服场景把12层BERT蒸馏到4层,F1反而涨0.4%,因为Student学到了Teacher的鲁棒性;训练消耗8张A100×3天,成本1.5万,但换来后续无需GPU,单机CPU可扛2000 QPS,节省云端GPU费用每月12万。
总结:量化是‘必做’,剪枝是‘空间不够才做’,蒸馏是‘既要小又要准’才做;三者可叠加,但产品节奏一定是先量化上线,再剪枝降存储,最后蒸馏保精度,每一步都重新跑合规备案。”
拓展思考
- 国内芯片生态差异:昇腾对INT8支持最好但对稀疏支持弱;寒武纪边缘端剪枝收益高;海光x86可跑非结构化稀疏但驱动版本碎片化。产品经理需提前拿到芯片PPA(Performance-Power-Area)白皮书,把“技术选型”写进PRD的约束章节。
- 定价模型:量化节省的云费用可以按“每千次调用省0.8分”直接算进对外报价,成为客户愿意升级算法的显性收益;剪枝、蒸馏节省的是边缘硬件BOM成本,适合一次性License加价。
- 迭代节奏:量化可在v1.1小版本做;剪枝涉及重训,需排进v2.0;蒸馏需要数据增强+教师模型,适合在“功能扩张期”并行进行,避免阻塞主线。
- 风险兜底:务必在PRD里预留“回滚阈值”,例如量化后精度掉>1%即回退FP32;剪枝后mAP掉>2%触发Hotfix;蒸馏Student在灰度期间A/B指标低于Teacher 1%即停止放量。让面试官听到你“把技术不确定性变成产品可控项”。