请解释模型量化（Quantization）、剪枝（Pruning）和知识蒸馏（Distillation）各自的作用和适用场景。 - 问题详情 - 创脉思

解读

面试官问这道题，并不是想听你背定义，而是考察三件事：

你是否能把“技术动作”翻译成“业务收益”——省多少钱、提多少速、牺牲多少精度；
你是否知道在国内真实落地环境里（监管、芯片、云边端混合部署）该选哪一招；
你是否能把这三招放进产品迭代节奏里，而不是一口气全上。
因此，回答要“技术一句+收益一句+场景一句”，让面试官瞬间听到“你懂业务”。

知识点

模型量化：把FP32权重→INT8/INT4，计算位宽减半，内存带宽减半，在国产推理芯片（含NPU、ASIC）上普遍有3-8倍实测提速；代价是精度掉0.5-2个百分点，需要校准数据集+回灌测试。
剪枝：分结构化（整channel／block）与非结构化（稀疏0）；结构化可直接掉FLOPs，适配华为昇腾、寒武纪等国内芯片；非结构化需配套稀疏算子，目前仅英伟达Ampere及以上、百度PaddleSparse有成熟支持。剪完要重训或微调，掉点更明显，但可压缩50-90%参数。
知识蒸馏：Teacher→Student，本质是“用精度换架构”，Student可以更小（MobileViT、TinyBERT）或更适合国产芯片算子约束；蒸馏过程=数据增强+Loss设计，通常不掉点甚至涨点，但训练成本高，需要GPU日级别重训。
国内合规点：量化后的INT8模型若用于金融、医疗，需重新做等保/算法备案；剪枝导致结构变化>30%，北京、上海网信办要求重新提交《模型变更报告》；蒸馏若引入外部Teacher，需确认Teacher数据源已获授权，避免“二次传播”风险。

答案

“这三招都是把大模型‘瘦身’上线，但产品打法完全不同。
量化是‘首选项’：上线前最后一环，用校准集把FP32转INT8，在昇腾310、阿里含光上实测延迟从120ms降到35ms，精度掉0.3%，符合金融实时风控<50ms的SLA，成本侧云实例从8核缩到2核，每月省3.2万。
剪枝是‘架构手术’：当芯片缓存只有8MB、模型>100MB时必须剪。我们去年在智能摄像头项目里做结构化剪枝，把YOLOv5s剪掉60%通道，模型从28MB→11MB，寒武纪220边缘端推理FPS从18提到42，满足公安布控>30FPS的硬指标；剪完重训7天，mAP掉1.1%，客户接受。
蒸馏是‘精度兜底’：要做国产化替代，Teacher是国外大模型，Student用国产芯片友好的TinyConv。我们在智能客服场景把12层BERT蒸馏到4层，F1反而涨0.4%，因为Student学到了Teacher的鲁棒性；训练消耗8张A100×3天，成本1.5万，但换来后续无需GPU，单机CPU可扛2000 QPS，节省云端GPU费用每月12万。
总结：量化是‘必做’，剪枝是‘空间不够才做’，蒸馏是‘既要小又要准’才做；三者可叠加，但产品节奏一定是先量化上线，再剪枝降存储，最后蒸馏保精度，每一步都重新跑合规备案。”

拓展思考

国内芯片生态差异：昇腾对INT8支持最好但对稀疏支持弱；寒武纪边缘端剪枝收益高；海光x86可跑非结构化稀疏但驱动版本碎片化。产品经理需提前拿到芯片PPA（Performance-Power-Area）白皮书，把“技术选型”写进PRD的约束章节。
定价模型：量化节省的云费用可以按“每千次调用省0.8分”直接算进对外报价，成为客户愿意升级算法的显性收益；剪枝、蒸馏节省的是边缘硬件BOM成本，适合一次性License加价。
迭代节奏：量化可在v1.1小版本做；剪枝涉及重训，需排进v2.0；蒸馏需要数据增强+教师模型，适合在“功能扩张期”并行进行，避免阻塞主线。
风险兜底：务必在PRD里预留“回滚阈值”，例如量化后精度掉>1%即回退FP32；剪枝后mAP掉>2%触发Hotfix；蒸馏Student在灰度期间A/B指标低于Teacher 1%即停止放量。让面试官听到你“把技术不确定性变成产品可控项”。