当调用量突增 10× 时,自托管方案与 API 方案的成本拐点如何计算?
解读
面试官想验证两点:
- 候选人能否把“10× 突发流量”拆解成并发峰值、首 Token 时延、GPU 利用率、冷启动惩罚等可量化指标;
- 能否用国内云厂商 2024Q2 真实目录价(含 GPU 现货、节省计划、API 阶梯折扣)算出一条“单请求成本 = f(调用量)”曲线,并找到两条曲线交点。
交点左侧 API 更便宜,右侧自托管更便宜,该交点即成本拐点。
注意:国内监管要求内容安全前置审核,自托管必须预留 15% 算力给内容审核模型,API 方案已含审核成本,不能漏算。
知识点
-
自托管总成本 = 硬件折旧 + 机房托管 + 电费 + 运维人力 + 内容审核算力税 + 冷启动浪费 + 弹性 buffer。
硬件折旧按 A100 80G 现货 8.5 万元/块,残值率 25%,三年折旧;
机房托管按 北京及周边 450 元/U/月,8×A100 服务器 4U;
电费按 0.65 元/kWh,满载 3.5 kW,PUE 1.25;
运维人力按 2 名 SRE,年薪 45 万,可维护 4 套集群;
内容审核模型占用 15% GPU 时间;
冷启动浪费按 日均 1 次重启,每次 8 min,GPU 空转;
弹性 buffer 按 峰值 1.5 倍,均值 0.7 利用率反算。 -
API 总成本 = 官方阶梯价 + 高阶套餐溢出价 + 峰值限流惩罚。
国内主流 千亿模型 2024Q2 目录价:
0~10M tokens/月 0.12 元/1k tokens;
10M~100M 0.09 元;
>100M 需签保底合同,0.06 元,但 QPS 默认 50,每增加 50 QPS 加收 1.2 万元/月。 -
调用量单位换算:
假设业务平均输入 600 tokens、输出 400 tokens,则 1 次请求 ≈ 1k tokens。
10× 突增前 日均 50k 次,突增后 500k 次/日,峰值 QPS 500(按 8 小时集中)。 -
单请求成本模型:
自托管:
C_self = (GPU 折旧 + 托管 + 电费 + 人力分摊 + 审核税 + 冷启动 + buffer) / 有效请求数
API:
C_api = 阶梯价 × tokens / 1000 -
拐点计算步骤:
① 按峰值 QPS 500 反推所需 A100 数量 N:
N = ceil(500 × 平均时延 2.5 s ÷ 单卡并发 16) × 1.5 buffer = 48 块;
② 代入国内价格,得到 C_self ≈ 0.047 元/请求;
③ 500k 次/日 ≈ 15M 请求/月,落在 API 第二阶梯,C_api ≈ 0.09 元/请求;
④ 令 C_self = C_api,反推月请求量 Q ≈ 32M 次*,对应 日均 1.07M 次,约为突增后 500k 次的 2.1 倍。
结论:- 若突增后调用量 < 1.07M 次/日,继续用 API 更省;
- 若业务预期再翻倍,则自托管提前 1 个月启动采购,拐点即达。
答案
“我会把问题拆成四步:
第一步,用峰值 QPS 500、平均时延 2.5 s、单卡并发 16 算出至少需要 48 块 A100,再留 1.5 倍弹性 buffer;
第二步,按国内现货价 8.5 万/块、三年折旧、450 元/U/月、0.65 元/度电、2 名 SRE、15% 审核税,把固定成本摊到每请求,得到 0.047 元;
第三步,看 API 第二阶梯 0.09 元/1k tokens,比自托管贵 90%;
第四步,令两者相等,解出月请求量 32M 次,即日均 1.07M 次是成本拐点。
突增 10× 后日调用 500k 次,仍低于拐点,短期继续用 API,若业务预期再翻倍,则立即启动 GPU 采购,拐点将在 45 天内到达。”
拓展思考
- GPU 现货价格波动 20% 会让拐点左移或右移 12%,因此合同里要加价格触发条款:当 A100 现货价跌破 7 万元/块,提前锁定硬件。
- 国内节假日前后电力限电,PUE 可能飙到 1.5,电费单请求成本上浮 8%,需把拐点上调 5%。
- API 方案若启用“专属资源池”(保底 100M tokens/月,QPS 独享),单价可压到 0.05 元,此时拐点右移至 日均 1.5M 次,几乎覆盖 99% 互联网业务,多数场景下专属 API 池比纯自托管更经济。
- 监管升级可能导致内容审核模型从 7B 升到 70B,审核税 GPU 时间从 15% 涨到 30%,自托管成本再增 8%,拐点继续左移,未来半年内监管因素将成为决定拐点的主导变量。