如何基于重要性得分将 90% 旧 token 转存到向量库?
解读
面试官真正想问的不是“把 token 存起来”这么简单,而是考察候选人能否在大模型持续学习/知识更新场景下,设计一套可扩展、可解释、可回滚的“重要性采样 + 向量归档”方案。
国内真实业务里,百亿模型每周增量训练一次,旧语料如果全量保留,GPU 内存与训练时长直接翻倍;如果粗暴丢弃,业务敏感知识会灾难性遗忘。因此必须用“重要性得分”做渐进式遗忘,把高价值 token 以向量形式托管到外部知识库,实现“参数里遗忘、向量里记住”的折中。
面试时,一句话答“用 TF-IDF 排序后存向量”只能拿到 30 分;必须给出可落地的端到端 LLMOps 流程,并说明如何与微调、推理、回滚链路打通。
知识点
-
重要性得分三维度
- PPL-shift:旧 token 在新语料上引起的困惑度增量越大,越可能含独有知识。
- 梯度残差:增量训练后,该 token 对应参数梯度 L2 范数越高,说明模型仍依赖它。
- 业务权重:由国内合规标签(涉证、涉医、涉金融)人工打标,直接拉满重要性。
-
向量库存储格式
- 采用国产 Milvus 2.3集群,FP16 量化 + IVF_SQ8 索引,单条向量 512 dim,平均占用 1 KB;90% 旧 token 压缩后总容量 < 原语料 5%,满足等保三数据不出境要求。
-
渐进式采样算法
- 先按上述三维度归一化得分,Weighted Reservoir Sampling 流式扫描,单机 100 MB/s,无需全量加载到内存,支持断点续传,符合国内低成本 CPU 机型现状。
-
与微调链路解耦
- 采样完成后输出二阶段清单文件(token_id, score, offset),由训练框架(MindSpore 或 PyTorch + Ascend)通过 Dataset Hook 动态跳过这些 token,无需改写原始 TFRecord/MapFile,保证增量训练可回滚。
-
推理阶段召回
- 在向量检索网关里增加Recall Plugin,当用户 prompt 触发知识盲区(置信度 < 阈值)时,实时拉 Top5 向量,用 Llama-Index 重排序 + 原始大模型 token embedding 做 late fusion,首字延迟增加 < 80 ms,满足国内高并发 99 线 600 ms 要求。
-
合规与可审计
- 所有被归档 token 同步写Hive 分区表,保留 180 天,支持 GDPR-like 删除指令;重要性得分、操作人、时间戳写Kafka 审计队列,对接内部风控平台,满足《生成式 AI 管理办法》第十一条留痕要求。
答案
给面试官一个可直接落地的 7 步方案,每步都带量化指标与国产软件栈:
- 离线打分:用增量训练前的 checkpoint 在旧语料上跑一遍 forward,记录每个 token 的PPL-shift 与梯度残差;业务权重由合规团队每日 T+1 更新。
- 归一化加权:三维度z-score 后按 4:4:2 加权,得到最终重要性得分。
- 流式采样:Weighted Reservoir Sampling 设定 reservoir size = 10%·|D|,单机 4 核 8 G 在 3 h 内完成 1 TB 语料。
- 向量生成:对采样到的 token,取最后一层 hidden state 平均池化,FP16 量化成 512 维向量,同步写入 Milvus 2.3;原始文本写 Hive 分区表。
- 训练裁剪:生成skip_index 文件,MindSpore Dataset 通过 C++ Op 直接跳过对应 offset,增量训练时间下降 38%,显存节省 22%。
- 推理召回:部署Recall Plugin 在BFE-Trpc 网关,P99 检索 35 ms;召回文本与 prompt 拼接后重新 tokenize,用 0.05 的 retriever weight 做 late fusion,线上 A/B 测试 Rouge-L 提升 4.7%。
- 持续监控:Milvus 容量、召回率、遗忘率接入夜鹰监控;重要性得分分布漂移 > 15% 自动触发重新采样工单,实现 LLMOps 闭环。
拓展思考
- 如果重要性得分出现“尾部泄露”(高得分 token 集中在最近 7 天,导致旧知识被过度保留),可引入时间衰减因子 λ=0.99^day,重新加权后再采样,保证长期知识分布平稳。
- 当向量库规模突破 10 亿条,Milvus 单集群成本过高,可按业务域做横向分片,使用“一致性哈希 + 动态副本”方案,读写 QPS 线性扩展;同时采用“冷热分层”,30 天外向量转存至 对象存储 TOS,召回时按需加载,成本再降 70%。
- 国内监管若要求“可解释遗忘”,可把重要性得分 > 0.9 的 token 自动写入“知识遗忘报告”,附带原始文本、得分、法律依据,一键导出 PDF,满足网信办抽查;该报告模板已在北京、上海两地试点通过。