为什么说'模型大小'不是决定推理成本的唯一因素？ - 问题详情 - 创脉思

解读

面试官想验证候选人是否具备“把技术语言翻译成成本语言”的能力。国内AI项目落地时，CTO、财务、采购、运维四方会同时追问“上线后到底花多少钱”。如果PM只谈“参数量”，会被认为“不懂工程、不懂业务、不懂钱”。必须展示对“端到端推理成本”的全栈视角，才能拿到资源、排期与预算。

知识点

推理成本=（单次算力成本×QPS×时长）+（工程链路成本）+（人力运维成本）
算力成本四要素：FLOPs、内存带宽、显存容量、并行策略
国内主流计费模式：
- 公有云GPU/ASIC按“卡·时”+“显存占用”双线计费
- 私有化机房需摊销IDC机柜、电费、冷却、维保
工程链路：
- 序列长度动态放大显存（如2048→4096，显存翻倍）
- 批处理策略（continuous batching）决定GPU利用率
- 量化/剪枝/蒸馏带来的“模型变小但访存密集”陷阱
业务指标：SLA（P99≤200 ms）、峰值QPS、弹性扩缩容规则
合规附加：信创CPU+GPU混合部署时，国产卡算力密度低→需更多节点
数据闭环：日志回传与实时标注占用出口带宽，常被忽略

答案

“模型大小”只是静态参数量，推理成本是动态系统问题。国内线上环境决定成本的优先级依次是：
① 实际算力消耗（FLOPs与显存带宽）
② 业务并发量与弹性策略
③ 序列长度、批尺寸、量化方案
④ 机房电价与云厂商计价颗粒度
⑤ 运维与合规附加
例如，6B参数的FP16模型若采用8-bit量化+continuous batching，在A10单卡上可跑到800 QPS，P99延迟120 ms；而2B参数模型若保持FP16且序列长度4k、批尺寸=1，反而需要双卡才能满足200 QPS，成本翻倍。因此，PM必须联合算法、工程、财务做“压测-计价-回滚”三板斧，用“单请求成本（元/千次）”而不是“参数亿级”去跟老板谈预算。

拓展思考

如何给老板写“一页纸成本模型”：列出峰值QPS、平均序列长度、GPU型号、卡时单价、利用率、冗余度，用公式“月成本=峰值QPS×平均序列长度×单次卡时×冗余度×24×30”，让财务一眼看懂。
国产化替代场景：华为昇腾910B单卡显存32 GB，算力密度低于A100，若模型剪枝后访存成为瓶颈，需把“卡数”写进招投标文件，否则中标后预算超支。
与算法团队谈判的筹码：提前定义“业务可接受精度下限”，用量化-蒸馏-动态推理的“精度-成本”Pareto曲线做决策，而不是“先训大模型再说”。