如何基于信息熵计算每轮对话的重要性得分并动态截断？ - 问题详情 - 创脉思

解读

面试官想验证三件事：

国内真实业务里，长上下文窗口（≥32 k）调用按 token 计费，熵驱动的动态截断直接决定成本与体验的天平，所以回答必须给出“算得起、截得准、回退快”的工程方案。

给出一套可直接落地的四步方案，全部在线上推理侧完成，无需改动预训练权重。

步骤 1 熵值计算
对每轮用户输入与模型回复拼接后的 token 序列，用当前最新一层 logits 计算逐 token 熵：
hi = −∑V p(vi) log p(vi)，其中 V 为词表。
为降低抖动，采用滑动窗口平均：Hi = mean(hi−k … hi)。

步骤 2 重要性得分
定义本轮重要性 I_t = max(Hi) − min(Hi−1)，即“信息增益峰值”。
若 I_t < θlow（经验值 0.3 nats），标记为“低价值轮”。

步骤 3 动态截断
维护一个双端队列，保留最近 N 轮；当累计 token 数 > 模型最大长度 × 0.85 时，从队首弹出 I_t 最小的轮，直到显存预算满足。
弹出前把被截断轮的熵值、token 位置、模型版本号写入 Redis，用于后续审计与回滚。

步骤 4 回退与监控

复杂度：熵值计算只增加 O(seq_len×V) 的内存访问，V 可裁剪为 Top-5k 候选，延迟增加 < 3 ms，满足国内 200 ms 首包 SLA。

熵值只反映“不确定性”，可能把“高信息但有害”内容保留。可再引入安全判别模型的置信度作为惩罚因子，得到修正重要性 I′t = I_t × (1 − P_risk)，实现安全-信息双因子截断。
在多模态对话里，图片 token 的熵如何定义？可把视觉编码器输出的每帧 embedding 方差作为“视觉熵”，与文本熵加权，统一驱动截断。
国内金融、医疗客户要求私有化部署，GPU 资源只有 8×A100-40G。可把熵值计算卸载到 CPU，用零拷贝共享内存把 logits 块传输过去，显存节省 15% 以上，保证在有限资源内跑 70 B 模型。