如何用 TensorRT 对 BERT-reranker 进行 INT8 量化并保证 NDCG@10 下降 <1%？ - 问题详情 - 创脉思

解读

面试官想知道三件事：

国内真实场景里，百亿参数大模型落地到搜索/推荐 rerank 阶段时，延迟预算往往只有 15 ms，GPU 显存又吃紧，INT8 量化是“必答题”而非“选答题”。能把 NDCG@10 压到 1% 以内，等于直接告诉面试官：我既能砍成本，又能保效果，符合国内业务“降本增效”硬指标。

TensorRT 8.6+ 的 INT8 量化管线：PTQ（Post-Training Quantization）与 QAT（Quantization-Aware Training）两条路，reranker 一般用混合策略：先 PTQ 快速验证，再 QAT 兜底精度。
校准数据选择：必须和线上请求同分布，国内搜索场景一般用最近 7 天真实 query-doc 对，去重后 2k–5k 条即可；若用公开 MS-MARCO，必须做领域自适应采样，否则 NDCG 直接掉 3% 以上。
敏感层保护：BERT reranker 的** pooler 层与最后一层 transformer** 对排序分数线性度影响最大，需跳过 INT8 保持 FP16；TensorRT 里用 set_precision 给层打标记。
校准算法：推荐熵校准（ENTROPY）+ 99.99% 截断离群值，比传统 KL 散度在 rerank 任务上 NDCG 高 0.4–0.6 个百分点。
微校准（Micro-Calibration）：若 NDCG 仍超 1%，可固定 backbone 量化参数，仅对 pooler 与 score 层做 QAT 迭代 300 步，学习率 2e-5，batch 32，通常 0.3% 以内可拉回。
TensorRT 推理插件：使用 IPluginV2DynamicExt 实现排序特征回插，方便线上 A/B 时同时输出原始分与量化分，灰度阶段直接算 NDCG 漂移而无需落盘。
LLMOps 监控：上线后把** NDCG@10 漂移指标写进 Prometheus，阈值 0.8%，连续 10 分钟触发回滚；同时把校准数据做成 T+1 自动采样回流**，实现“量化模型周更”。

我去年在某头部电商搜索团队负责百亿参数 rerank 模块，目标是把 P99 延迟从 23 ms 压到 12 ms，显存占用降 40%，且 NDCG@10 下降 <1%。具体步骤如下：

** baseline 复现**：先用 FP16 在 TensorRT 8.6 跑通，batch=8、seq_len=128，P99 延迟 23 ms，NDCG@10 为 0.781。
校准数据构造：取线上最近 7 天 50 w query，按点击权重采样得到 3 k 条，保证长尾 query 占比 ≥ 25%，与训练集互斥。
第一次 PTQ：
- 用 TensorRT calibration 接口，算法选 ENTROPY，截断 99.99% 离群值；
- 保护 pooler 与第 12 层 transformer，保持 FP16；
- 生成 INT8_calibrated 引擎，延迟降到 11.8 ms，NDCG@10 掉到 0.772（下降 1.15%）。
微校准拉回：
- 固定其余层量化 scale，仅对 pooler + score 层做 QAT，冻结 backbone 量化参数；
- 用线上 3 k 校准数据继续训 300 步，学习率 2e-5，NDCG@10 回到 0.779（下降 0.26%）。
回退策略：
- 上线灰度 5% 流量，Prometheus 监控 NDCG 漂移，连续 10 分钟 >0.8% 自动回滚；
- 同时把实时日志回流到 Hive，T+1 自动采样更新校准集，实现周级模型热更新。

最终线上全量后，P99 延迟 11.9 ms，显存降 42%，NDCG@10 下降 0.26%，远小于 1% 业务红线，获得季度技术突破奖。

如果面试官继续追问“千亿参数生成式大模型做 INT8 量化，为什么 reranker 能压到 1%，而生成模型往往掉 3% 以上？”，可以从以下角度回答：

任务差异：reranker 是打分函数，输出只需保序，对绝对数值误差容忍高；生成模型是逐 token 多步采样，误差会指数级累积。
量化粒度：reranker 可用** per-channel 量化**+ 敏感层保护，而生成模型激活方差大，必须** per-token 动态量化**，TensorRT 目前支持有限，需手写插件。
校准数据规模：reranker 用 2k–5k 同分布样本即可；生成模型需十万级多样本才能覆盖长尾知识，否则 FAQ 场景直接“幻觉”暴涨。
评价指标：reranker 用 NDCG@10 单指标就能闭环；生成模型需事实准确率、幻觉率、安全拒答率多指标联合，** INT8 掉 1% 在业务上不可接受**。

因此，** reranker 的 INT8 量化是“低风险高收益”场景**，而生成式大模型在国内落地时，往往先砍** KV-Cache INT8** 而非权重 INT8，或者直接用 FP8 Transformer Engine，才能兼顾成本与体验。