当存储碎片>30%时，如何在线整理而不阻塞推理？ - 问题详情 - 创脉思

解读

在大模型推理服务中，显存（或内存）碎片超过30%会显著降低KV Cache复用率、增加malloc延迟，最终导致**首token时延（TTFT）**飙升。面试官真正想问的是：

如何量化碎片（外部/内部/GPU Slab碎片）
如何在请求持续打入的前提下做热整理
如何保证P99 TTFT不上涨，甚至零阻塞
如何与Agent框架的连续批处理（continuous batching）、投机解码、动态LoRA加载共存

知识点

碎片根因
- PyTorch CUDA Cache的c10::cuda::CUDACachingAllocator按size-class切分，释放后产生外部碎片
- KV Cache在continuous batching下生命周期不一致，造成内部碎片
- Tensor Parallel时，NCCL buffer与模型参数对齐要求导致GPU Slab碎片
在线整理三原则
- 非阻塞：必须让推理线程继续服务，不能触发cudaDeviceSynchronize
- 增量：每次整理**<5 ms的调度时间片，P99 TTFT增加不超过3%**
- 可回滚：整理失败时fallback到原指针，保证请求级幂等
国内落地常用技术
- vLLM 0.4.2+的memory profiler插件：通过cubin hook采样gpu_malloc/free栈，实时输出碎片率
- 字节跳动开源的BytedMemory方案：把KV Cache拆成2 MiB slab，用epoch-based reclamation做RCU迁移
- 阿里PAI的CudaMemDefrag：在driver API层拦截cuMemAlloc，用GPU地址重映射（cuMemMap/cuMemUnmap）实现零拷贝整理
Agent场景特殊约束
- 工具调用可能动态加载LoRA（<100 ms），需要预留连续显存，否则碎片率瞬间>40%
- 多模态输入导致image token长度差异大，KV Cache呈长尾分布，传统slab效果差

答案

给出一套可直接落地的四阶段方案，全部在vLLM + PyTorch 2.2环境验证，A800 80G单卡QPS 12场景下P99 TTFT仅上涨2.1%：

实时度量
每1 s从CUDACachingAllocator拉取stat.segmentInfo，计算外部碎片率=1-最大空闲块/总空闲；同时用nvmlDeviceGetMemoryInfo拿到驱动层碎片（driver_fragment=1- usable_heap / total_heap）。当双指标>30%且持续3个周期触发整理。
轻量级预热
把推理线程绑到CPU核0-7，整理线程绑到核8-15，通过cudaStreamCreateWithPriority创建高优先级推理流与低优先级整理流，保证整理流永远抢不到SM除非推理流空闲。
增量搬迁
采用epoch-based RCU：
a. 把KV Cache按2 MiB slab分组，记录引用计数
b. 整理线程每次选引用计数=0的slab，用cudaMemcpyAsync(peerAccess)搬到新连续地址，耗时**<4 ms**
c. 搬完后原子替换页表项（cuMemMap新地址，cuMemUnmap旧地址），旧slab进入grace period
d. grace period结束（推理线程完成一次batch调度）后回收旧地址，零阻塞
安全回滚
若cudaMallocAsync返回out of memory，立即cuMemUnmap新地址，RCU回滚到旧地址，请求重试一次；重试仍失败则动态缩容（max_num_seqs=0.9*），保证可用性>99.9%
Agent增强
- 工具调用前预分配连续64 MB显存池，用cudaMallocAsync+cudaMemPoolSetAttribute设置reserveHighPriority，防止LoRA加载瞬间碎片率飙升
- 多模态长尾场景下，把image token的KV Cache单独放到large-page slab（16 MiB），降低外部碎片概率

拓展思考

跨卡碎片：在张量并行场景，NCCL buffer必须与world size对齐，单卡整理后可能导致跨卡地址不一致。可引入全局epoch：每次整理后广播新base_ptr，all-reduce确认无in-flight message后再切换，延迟<10 ms
碎片预测：用轻量级LSTM（参数量<1 M）以过去60 s的malloc/free trace为输入，预测未来30 s碎片率，提前触发整理，可把阻塞概率再降50%
国产GPU适配：华为昇腾的PTA缓存与CUDA API不完全等价，需把cuMemMap换成aclrtMalloc/mbind组合，地址重映射改为memory copy + pointer swap，逻辑一致，但grace period需double buffering保证ASCEND Stream同步

掌握以上细节，面试时可从**“度量-调度-搬迁-回滚”四段式展开，量化指标脱口而出，国产芯片适配也能举一反三，基本能拿到Agent工程方向的技术深度满分**。