当集群剩余GPU<10%时,如何优先保障在线Agent推理?

解读

面试官想验证三件事:

  1. 你是否把“在线 Agent 推理”当成核心业务链路,而非普通离线训练任务;
  2. 你是否具备全栈视角——从流量入口、调度、混部、模型压缩到弹性伸缩,都能给出可落地的国内工程方案;
  3. 你是否能在资源极度受限(<10%)的极端场景下,用数据驱动+策略兜底的方式,保证 P99 延迟不上涨、可用性>99.9%,同时不击穿成本红线。

知识点

  1. QoS 分级:在线推理 L0 > 近线推理 L1 > 离线训练/批推理 L2;
  2. GPU 超卖与抢占:Kubernetes + GPU Share/Device Plugin,结合优先级类别(PriorityClass)和抢占式调度
  3. 动态配额:基于实时 SLA 指标(QPS、P99、GPU Util)做HPA/VPA,而非静态 request;
  4. 国产混部栈:阿里 Koordinator、腾讯 Gemini、字节 Katalyst,均支持CPU/GPU 混部干扰检测
  5. 模型侧减负INT8/INT4 量化投机解码动态批合并(continuous batching)、KV-Cache 压缩
  6. 流量侧兜底自适应降级(降精度、降长度)、热点模型缓存边缘节点预热
  7. 观测与熔断GPU 显存水位SM 利用率PCIE 带宽三维熔断,秒级报警+自动 Kill 低优 Pod
  8. 预算合规:国内云厂商按秒计费+抢占式实例,需把成本指标(元/千次调用)一起写进 SLA。

答案

回答采用“三阶段十动作”模型,全程用国内可落地的开源或云原生组件,时间控制在 30 秒内让面试官听到关键路径,后续 2 分钟展开细节。

第一阶段:秒级止血(0-30 s)

  1. 触发熔断:Prometheus 规则 gpu_free_ratio < 10% 持续 5 s,立即通过 Kubectl patch 把 L2 任务 replicas=0
  2. 热点模型锁存:把 Top-5 在线模型 warmupGPU Memory Cache,禁止 Swap 到系统内存;
  3. 动态降精度:通过 Triton Model Control API 把非黄金模型由 FP16 切到 INT8,显存占用下降≈45%,P99 延迟增加<8%。

第二阶段:分钟级调度(30 s-5 min)
4. 优先级抢占:给在线 Agent Pod 绑定 priorityClassName=agent-online-0kube-scheduler 立即抢占 L1 副本;
5. GPU 共享切分:启用 Aliyun cGPU/腾讯 qGPU,把一张 A100 80G 切成 7×10G 虚拟卡,提高显存利用率到 85% 以上;
6. 混部弹性:把 CPU 推理兜底池(ARM 国产芯片+鲲鹏 256 核)通过 Virtual-Kubelet 接入集群,无 GPU 时由 CPU-INT8 推理扛 30% 流量,延迟增加但可用性不降级;
7. 边缘预热:基于DNS 流量调度,把省域边缘节点(GPU 剩余>30%)的 Agent 镜像提前 preload,通过 Ingress 权重把 20% 流量切走,减轻中心集群压力。

第三阶段:小时级治理(5 min-∞)
8. 模型蒸馏:离线任务自动拉起 Knowledge Distillation 作业,把 70B teacher 模型蒸馏成 13B student,显存占用再降 50%,AB 实验证明效果掉点<1.5%;
9. 预算回检:把单次调用 GPU 成本写回 Prometheus,当 cost_per_query > 预算阈值 时,自动扩容抢占式 GPU 实例(国内云厂商按秒计费),成本反向熔断
10. 混沌验收:每周注入GPU 节点宕机显存泄漏NVLink 打满三类故障,验证故障发现时间<30 s业务恢复时间<90 s,持续优化剧本。

通过以上十动作,可在单集群 GPU<10% 的极端场景下,把在线 Agent 推理的可用性维持在 99.95%P99 延迟上涨<10%成本增加<15%,并满足国内等保+可信云审计要求。

拓展思考

  1. 如果面试官追问“多地域容灾”,可补充:华北-华东-华南三地域通过 Global Traffic Manager异地多活GPU 池独立预算跨域镜像预热<5 min
  2. 若问“国产 GPU 适配”,可答:已验证寒武纪 MLU370-X8海光 DCUTriton ONNXRuntime 后端跑通 INT8 量化算子覆盖率>95%性能为 A100 的 62%,但成本仅为 38%,可做为兜底池
  3. 若问“安全对齐”,可补充:在资源抢占时,敏感 Agent(金融、政务) 通过 Pod Anti-Affinity 强制落在专属物理节点,并走 Confidential GPUNVIDIA HGX H100 CGPU加密显存,防止旁路攻击