为什么说'模型大小'不是决定推理成本的唯一因素?
解读
面试官想验证候选人是否具备“把技术语言翻译成成本语言”的能力。国内AI项目落地时,CTO、财务、采购、运维四方会同时追问“上线后到底花多少钱”。如果PM只谈“参数量”,会被认为“不懂工程、不懂业务、不懂钱”。必须展示对“端到端推理成本”的全栈视角,才能拿到资源、排期与预算。
知识点
- 推理成本=(单次算力成本×QPS×时长)+(工程链路成本)+(人力运维成本)
- 算力成本四要素:FLOPs、内存带宽、显存容量、并行策略
- 国内主流计费模式:
- 公有云GPU/ASIC按“卡·时”+“显存占用”双线计费
- 私有化机房需摊销IDC机柜、电费、冷却、维保
- 工程链路:
- 序列长度动态放大显存(如2048→4096,显存翻倍)
- 批处理策略(continuous batching)决定GPU利用率
- 量化/剪枝/蒸馏带来的“模型变小但访存密集”陷阱
- 业务指标:SLA(P99≤200 ms)、峰值QPS、弹性扩缩容规则
- 合规附加:信创CPU+GPU混合部署时,国产卡算力密度低→需更多节点
- 数据闭环:日志回传与实时标注占用出口带宽,常被忽略
答案
“模型大小”只是静态参数量,推理成本是动态系统问题。国内线上环境决定成本的优先级依次是:
① 实际算力消耗(FLOPs与显存带宽)
② 业务并发量与弹性策略
③ 序列长度、批尺寸、量化方案
④ 机房电价与云厂商计价颗粒度
⑤ 运维与合规附加
例如,6B参数的FP16模型若采用8-bit量化+continuous batching,在A10单卡上可跑到800 QPS,P99延迟120 ms;而2B参数模型若保持FP16且序列长度4k、批尺寸=1,反而需要双卡才能满足200 QPS,成本翻倍。因此,PM必须联合算法、工程、财务做“压测-计价-回滚”三板斧,用“单请求成本(元/千次)”而不是“参数亿级”去跟老板谈预算。
拓展思考
- 如何给老板写“一页纸成本模型”:列出峰值QPS、平均序列长度、GPU型号、卡时单价、利用率、冗余度,用公式“月成本=峰值QPS×平均序列长度×单次卡时×冗余度×24×30”,让财务一眼看懂。
- 国产化替代场景:华为昇腾910B单卡显存32 GB,算力密度低于A100,若模型剪枝后访存成为瓶颈,需把“卡数”写进招投标文件,否则中标后预算超支。
- 与算法团队谈判的筹码:提前定义“业务可接受精度下限”,用量化-蒸馏-动态推理的“精度-成本”Pareto曲线做决策,而不是“先训大模型再说”。