什么是量化模型？它对推理速度和内存占用有何影响？ - 问题详情 - 创脉思

解读

面试官问“量化模型”，并不是想听“把 float 变成 int 这么简单”。在国内 Android 面试场景里，他真正想确认的是：

你是否理解移动端部署 AI 时的“最后一公里”痛点——包体、内存、功耗、帧率；
你是否能把算法概念落到 Android 工程实践：NNAPI、TensorFlow-Lite、MNN、NCNN、TNN、SNPE、HiAI 这些国内主流推理栈怎么玩；
你是否能权衡精度-速度-体积三角关系，给出可落地的量化方案，而不是“全 int8 一把梭”。

知识点

量化本质：把 32-bit FP 权重/激活离散到更低 bit（int8、int16、fp16、int4、混合比特、权重量化 vs 激活量化）。
对称/非对称、逐层/逐通道、量化粒度、零点 zero-point、scale、校准集（calibration dataset）。
训练后量化 PTQ（Post-training Quantization）与量化感知训练 QAT（Quantization Aware Training）差异；QAT 在 Android 端通常需要 TensorFlow-Lite 转换 + 微调 3~5 epoch。
Android 推理加速路径：
- CPU：armv8.2 dot-product、int8 GEMM 内核（ruy、gemmlowp、ncnn、MNN）。
- GPU：OpenCL、Vulkan、Adreno GPU FP16/INT8 混合。
- NPU：高通 SNPE HTA、海思 HiAI、联发科 APU、紫光展锐 VS680、瑞芯微 NPU；这些后端普遍只接受 INT8 权重。
内存占用公式：
原始大小 = params × 4 B；int8 权重大小 = params × 1 B；若同时把激活缓存到 INT8，feature map 也直接降 4×。
速度收益来源：
- 内存带宽↓ → cache miss↓；
- int8 向量指令（SDOT/UDOT）单周期吞吐是 fp32 的 4×；
- NPU 只能跑 int8，不量化就 fallback 到 CPU，速度反而掉 3~10×。
精度风险：分类 Top-1 掉 0.5~~2% 属可接受；检测 mAP 掉 1~~3% 需 QAT；语义分割 mIoU 掉 3% 以上考虑混合精度（首层/尾层 FP16）。
Android 包体：assets 里 *.tflite 从 25 MB → 7 MB，Google Play 按“压缩后”计费，国内渠道对 200 MB 以上强制分包容忍度低，量化直接决定能否上架。
工具链：
- TensorFlow-Lite Converter：default optimization=DEFAULT, target_spec=int8, representative_dataset；
- MNN 量化：./quantized.out model.mnn quant.mnn；
- NCNN 量化：ncnnoptimize + ncnn2table + ncnn2int8；
- SNPE：snpe-dlc-quantize --enable_hta；
- 华为 HiAI：Model Converter 选择“HUAWEI_NPU_QUANTIZE”。
运行时 API：Android NNAPI 1.3 支持 INT8 对称量化；TFLite Interpreter.Options.setUseNNAPI(true) 后，若驱动不支持则自动 fallback，需加 A/B Test 监控。

答案

量化模型是指通过线性映射将 32 位浮点权重与激活转换为 8 位整数（或更低比特）的模型。其核心参数是 scale 和 zero-point，映射公式：
int8_value = round(float_value / scale) + zero-point
反量化还原：
float_value = (int8_value – zero-point) × scale

在 Android 设备上，量化带来的收益可量化如下：

内存占用：权重体积直接缩小 4 倍；若激活缓存也使用 INT8，运行期峰值内存可降 30~60%，对 2 GB 低端机是“能否跑起来”的分界线。
推理速度：
- CPU 路径：armv8.2 之后支持 SDOT 指令，int8 峰值算力是 fp32 的 4×，实测主流 8 核 Kryo 平台整体帧率提升 1.8~2.5×；
- GPU 路径：Adreno 640 以上 INT8 卷积吞吐比 FP16 再高 30%；
- NPU 路径：高通 HTA、海思 DaVinci 只接受 INT8，不量化就回退 CPU，速度掉 5× 以上。
包体：assets 内 tflite 大小从 25 MB → 7 MB，国内渠道 200 MB 硬性红线下，量化直接决定能否保留模型。
精度：ImageNet 分类 Top-1 通常掉 0.5~1.2%，检测 COCO mAP 掉 1% 左右；若掉点超标，采用 QAT 微调 3 epoch 可拉回 70% 损失。

因此，量化是 Android AI 落地“必点菜”：不量化，高端机勉强能跑，低端机直接 OOM；量化后，帧率提升 2×、包体减 70%、内存降一半，精度损失可控，完全符合国内手机厂商对功耗和性能的双重要求。

拓展思考

混合精度策略：首层、尾层、Sigmoid/Softmax 保持 FP16，中间卷积 INT8，可在 mAP 不掉点情况下再提速 15%。
动态量化与权重量化：若业务模型含大量动态 shape（OCR、ASR），可仅权重量化（weight-only），运行期激活仍 FP32，牺牲 50% 内存收益，但避免校准集麻烦。
折叠屏/多窗口场景：量化后内存降低，配合 Android 12 的内存 cgroup 限制，可在分屏模式下同时跑两个 AI 相机特效而不被杀进程。
国内合规：量化后模型参数不可读，但仍需通过中国信通院“AI 模型安全评测”——需保证量化过程可逆、不引入后门，面试时可提到“校准集脱敏 + 量化节点 hash 校验”做法。
未来趋势：Android 14 引入 Ultra-INT4 API，高通 8 Gen3 支持 INT4 卷积，体积再降 50%；提前在 TFLite 实验 int4 权重量化，可在面试中展示技术前瞻性。