当算力预算被削减时,您会优先砍掉哪些AI功能?依据是什么?
解读
面试官想验证三件事:
- 能否把“算力”拆成可量化的成本项(训练、推理、存储、带宽、第三方API)。
- 能否把“功能”拆成对业务指标的边际贡献,而不是拍脑袋砍“最炫”的功能。
- 能否在合规、舆情、技术债之间做权衡,给出可复现、可审计的决策路径。
在国内落地场景里,还要考虑:
- 监管红线(算法备案、数据出境、内容安全审核)不能碰;
- 甲方客户常把“实时”“秒回”写进合同,延迟类SLA违约可能带来罚金;
- 国产化算力(华为昇腾、寒武纪)与英伟达混合部署,不同芯片的单价差异可达3–5倍,需换算成“每千次调用成本”再比较。
知识点
-
算力成本拆解
训练成本 = GPU小时 × 单价 × 卡数 × 有效训练时长利用率(一般0.6–0.8)
推理成本 = QPS × 单次峰值FLOPs × 平均并发时长 × 芯片单价比
存储与带宽 = 模型体积 × 冗余副本数 × 单GB月租 + CDN回源流量费
第三方API = 按调用量阶梯计价,需计算“自建模型成本–API成本”的盈亏平衡点 -
功能价值评估
采用“业务收益/算力消耗”比值,收益用北极星指标换算成钱:- 电商推荐:GMV提成
- 金融风控:坏账减少金额
- 智能客服:人工坐席节省成本
算出ROI=年收益÷年算力成本,ROI<1的直接进候选砍掉清单。
-
技术可行性滤镜
- 能否降级为规则或小模型(<1B参数)保持80%效果;
- 能否用缓存、采样、模型蒸馏把QPS压到1/3;
- 是否涉及多模态大模型,必须A100且无法迁移到国产卡。
-
合规与舆情滤镜
- 生成式内容若无“安全过滤模块”,砍掉后必触发监管处罚,成本反而更高;
- 人脸识别若写入治安协议,砍掉等于违约;
- 用户已付费的VIP功能,砍掉需退差价,计入沉没成本。
-
决策流程(可在面试现场用30秒口述)
Step1 数据拉取:财务给最新云账单,运维给GPU利用率报表,业务给功能ROI表;
Step2 打分排序:ROI×合规系数×技术迁移难度倒数,取倒数后升序排列;
Step3 红会评审:法务、合规、客户成功一票否决;
Step4 沙盘推演:砍掉后重新估算QPS、缓存命中率、客户投诉量;
Step5 老板拍板:出具《算力削减影响说明书》留痕,防止事后追责。
答案
示范回答(控制在2分30秒,供背诵):
“如果算力预算明天被砍30%,我会按四步执行:
第一步,把账算清。把过去90天的账单拆成训练、推理、存储、第三方API四大块,发现推理占68%,训练占22%,剩下10%是存储带宽;再把推理按功能拆到‘千次调用成本’粒度。
第二步,用ROI排序。以电商场景为例,‘主推荐’功能每千次调用成本0.42元,带来GMV提成3.6元,ROI 8.5;‘图文生成卖点’功能每千次成本1.1元,带来额外转化0.8元,ROI 0.7;‘智能穿搭’多模态功能每千次成本2.3元,转化1.2元,ROI 0.5。ROI<1的两个功能进入候选砍掉清单。
第三步,过合规滤镜。‘图文生成卖点’虽ROI低,但包含敏感词过滤模块,砍掉后内容安全审核压力会转嫁到人工,综合罚金与人力反而贵,因此保留但做降级:用7B蒸馏模型替代40B大模型,GPU利用率降40%,效果下降6%,在可接受范围。
第四步,砍‘智能穿搭’。该功能依赖CLIP+Diffusion,必须A100,无法迁移到国产卡;且合同里未承诺实时生成,用户可以接受‘24小时内离线生成’。于是直接下线在线接口,改为每日批处理,把原来占用的50张A100释放掉,正好完成30%削减目标。
同时把决策过程写成《算力削减影响说明书》,含数据底表、ROI公式、合规评审记录,抄送财务、法务、客户成功,确保后续审计可查。预算恢复后,再按原路线图回滚。”
拓展思考
-
如果削减比例提升到70%,仅靠“砍功能”已不够,需要结构性优化:
- 训练侧:采用“MoE+激活稀疏”方案,把相同效果下的FLOPs降50%;
- 推理侧:引入“动态批处理+投机采样”,在P99延迟不变前提下吞吐翻倍;
- 商务侧:与云厂商重签“ preemptible GPU+国产化混合”协议,把单价再打7折;
- 必要时把非核心模型迁移到地方政府智算中心,享受补贴电价,单卡成本可降到公有云的40%。
-
反向利用预算危机推动技术升级:
把本次削减清单沉淀为“功能成本基线”仪表板,以后任何新功能评审必须填写“预估千次调用成本”,形成常态化机制,避免再次陷入“先上线后算账”的被动局面。