当集群剩余GPU<10%时，如何优先保障在线Agent推理？ - 问题详情 - 创脉思

解读

面试官想验证三件事：

你是否把“在线 Agent 推理”当成核心业务链路，而非普通离线训练任务；
你是否具备全栈视角——从流量入口、调度、混部、模型压缩到弹性伸缩，都能给出可落地的国内工程方案；
你是否能在资源极度受限（<10%）的极端场景下，用数据驱动+策略兜底的方式，保证 P99 延迟不上涨、可用性>99.9%，同时不击穿成本红线。

知识点

QoS 分级：在线推理 L0 > 近线推理 L1 > 离线训练/批推理 L2；
GPU 超卖与抢占：Kubernetes + GPU Share/Device Plugin，结合优先级类别（PriorityClass）和抢占式调度；
动态配额：基于实时 SLA 指标（QPS、P99、GPU Util）做HPA/VPA，而非静态 request；
国产混部栈：阿里 Koordinator、腾讯 Gemini、字节 Katalyst，均支持CPU/GPU 混部与干扰检测；
模型侧减负：INT8/INT4 量化、投机解码、动态批合并（continuous batching）、KV-Cache 压缩；
流量侧兜底：自适应降级（降精度、降长度）、热点模型缓存、边缘节点预热；
观测与熔断：GPU 显存水位、SM 利用率、PCIE 带宽三维熔断，秒级报警+自动 Kill 低优 Pod；
预算合规：国内云厂商按秒计费+抢占式实例，需把成本指标（元/千次调用）一起写进 SLA。

答案

回答采用“三阶段十动作”模型，全程用国内可落地的开源或云原生组件，时间控制在 30 秒内让面试官听到关键路径，后续 2 分钟展开细节。

第一阶段：秒级止血（0-30 s）

触发熔断：Prometheus 规则 gpu_free_ratio < 10% 持续 5 s，立即通过 Kubectl patch 把 L2 任务 replicas=0；
热点模型锁存：把 Top-5 在线模型 warmup 到 GPU Memory Cache，禁止 Swap 到系统内存；
动态降精度：通过 Triton Model Control API 把非黄金模型由 FP16 切到 INT8，显存占用下降≈45%，P99 延迟增加<8%。

第二阶段：分钟级调度（30 s-5 min）
4. 优先级抢占：给在线 Agent Pod 绑定 priorityClassName=agent-online-0，kube-scheduler 立即抢占 L1 副本；
5. GPU 共享切分：启用 Aliyun cGPU/腾讯 qGPU，把一张 A100 80G 切成 7×10G 虚拟卡，提高显存利用率到 85% 以上；
6. 混部弹性：把 CPU 推理兜底池（ARM 国产芯片+鲲鹏 256 核）通过 Virtual-Kubelet 接入集群，无 GPU 时由 CPU-INT8 推理扛 30% 流量，延迟增加但可用性不降级；
7. 边缘预热：基于DNS 流量调度，把省域边缘节点（GPU 剩余>30%）的 Agent 镜像提前 preload，通过 Ingress 权重把 20% 流量切走，减轻中心集群压力。

第三阶段：小时级治理（5 min-∞）
8. 模型蒸馏：离线任务自动拉起 Knowledge Distillation 作业，把 70B teacher 模型蒸馏成 13B student，显存占用再降 50%，AB 实验证明效果掉点<1.5%；
9. 预算回检：把单次调用 GPU 成本写回 Prometheus，当 cost_per_query > 预算阈值 时，自动扩容抢占式 GPU 实例（国内云厂商按秒计费），成本反向熔断；
10. 混沌验收：每周注入GPU 节点宕机、显存泄漏、NVLink 打满三类故障，验证故障发现时间<30 s、业务恢复时间<90 s，持续优化剧本。

通过以上十动作，可在单集群 GPU<10% 的极端场景下，把在线 Agent 推理的可用性维持在 99.95%，P99 延迟上涨<10%，成本增加<15%，并满足国内等保+可信云审计要求。

拓展思考

如果面试官追问“多地域容灾”，可补充：华北-华东-华南三地域通过 Global Traffic Manager 做异地多活，GPU 池独立预算，跨域镜像预热<5 min；
若问“国产 GPU 适配”，可答：已验证寒武纪 MLU370-X8、海光 DCU 在 Triton ONNXRuntime 后端跑通 INT8 量化，算子覆盖率>95%，性能为 A100 的 62%，但成本仅为 38%，可做为兜底池；
若问“安全对齐”，可补充：在资源抢占时，敏感 Agent（金融、政务） 通过 Pod Anti-Affinity 强制落在专属物理节点，并走 Confidential GPU（NVIDIA HGX H100 CGPU）加密显存，防止旁路攻击。