除了准确率,您还会设定哪些硬性上线标准(如延迟、稳定性、资源消耗)?
解读
面试官想知道三件事:
- 你是否把“模型指标”与“工程指标”拆得开——准确率只是模型指标,上线必须看工程指标;
- 你是否能把工程指标翻译成“用户可感知、业务可量化、财务可算账”的硬门槛;
- 你能否根据国内真实约束(GPU 配额、备案、等保、信通院评测、集团财务摊销)给出可落地的数值,而不是照搬论文。
回答时要先分层(用户层、系统层、商业层),再给出典型阈值区间,并说明如何与算法、架构、运维、法务四方拉齐。
知识点
- 用户层 SLA:端到端延迟、TP99、首包时间、卡顿率。
- 系统层 SLA:QPS、GPU 利用率、显存峰值、单条推理成本、弹性扩容冷启动时间。
- 商业层 SLA:单条调用财务摊销、ROI 盈亏平衡点、等保/关保/算法备案/深度合成标识合规检查通过率 100%。
- 稳定性:混沌工程 6 小时连续压测无 Pod 重启、滚动发布期间错误率 <0.1%、回滚窗口 <5 分钟。
- 可观测:Prometheus 指标、天级账单、实时告警 P0 1 分钟、P1 5 分钟、P2 30 分钟。
- 国内特色:GPU 卡需申请集团配额,NVIDIA A100 80G 需走信创替代方案时,指标要同步下调 15% 以内;深度合成服务必须完成“互联网信息服务算法备案”并取得编号后方可上线。
答案
我会把硬性上线标准拆成“三层六板斧”,每层给出可量化的红线,任何一项不达标即封板:
-
用户层
a. 端到端延迟:搜索场景 TP99 < 350 ms,客服对话首字响应 < 600 ms;
b. 卡顿率:音视频生成场景,1 s 以上卡顿率 < 0.3%;
c. 可用性:核心链路 7×24 可用性 ≥ 99.9%,计划外宕机全年 ≤ 8 小时。 -
系统层
a. 单条推理成本:GPU 版 ≤ 0.008 元/次,CPU 兜底版 ≤ 0.002 元/次(含折旧与电费,按集团财务摊销模型计算);
b. 资源峰值:单卡 A100 80G 显存占用 ≤ 75%,单卡利用率 ≤ 85%,留 10% buffer 防止 OOM;
c. 弹性冷启动:Pod 拉起至可服务 ≤ 45 s,支持 3 倍流量突刺 5 分钟内扩容完成;
d. 稳定性:连续 6 小时 ChaosMonkey 注入 CPU 抢占、网络延迟 100 ms、节点宕机,错误率 < 0.1%,无 Pod 重启。 -
商业与合规层
a. 盈亏平衡:模型上线后 3 个月内,单条收益 ≥ 单条成本 × 1.3;
b. 合规:算法备案号取得、深度合成内容标识 100% 打标、等保三级测评报告通过、关保测评无高危漏洞;
c. 可回滚:版本回滚时间 ≤ 5 分钟,回滚后模型效果下降 ≤ 1%(A/B 基线对比)。
所有指标写入 PRD 的“上线检查表”,由 QA、SRE、法务、财务四方联合签字后方可发版;上线后持续 14 天灰度,任何指标跌破红线即自动回滚并触发 Post-mortem。
拓展思考
- 信创替代场景:若 GPU 从 A100 换成国产 32G 卡,显存减半,需在 PRD 里同步把“单卡显存占用 ≤ 75%”改成 ≤ 65%,并提前做 INT8 量化与层间并行,否则上线即 OOM。
- 成本敏感型业务:如 OCR 小票识别,单条调用收入仅 0.005 元,必须让“单条成本 ≤ 0.003 元”成为一票否决项,倒逼模型蒸馏 + 动态 batch + 共享 GPU。
- 高合规场景:金融人脸比对,除等保外还需通过“个人金融信息保护技术规范”测评,此时要把“误识率 ≤ 0.01%”写进合规红线,而不是仅写准确率 99%。
- 持续运营:上线后建立“成本-效果”双周复盘机制,若 GPU 涨价 30%,财务模型击穿盈亏线,产品经理有权触发“模型瘦身”或“计费策略调整”项目,确保产品生命周期健康。