当算力预算被削减时，您会优先砍掉哪些AI功能？依据是什么？ - 问题详情 - 创脉思

解读

面试官想验证三件事：

能否把“算力”拆成可量化的成本项（训练、推理、存储、带宽、第三方API）。
能否把“功能”拆成对业务指标的边际贡献，而不是拍脑袋砍“最炫”的功能。
能否在合规、舆情、技术债之间做权衡，给出可复现、可审计的决策路径。

在国内落地场景里，还要考虑：

监管红线（算法备案、数据出境、内容安全审核）不能碰；
甲方客户常把“实时”“秒回”写进合同，延迟类SLA违约可能带来罚金；
国产化算力（华为昇腾、寒武纪）与英伟达混合部署，不同芯片的单价差异可达3–5倍，需换算成“每千次调用成本”再比较。

知识点

算力成本拆解
训练成本 = GPU小时 × 单价 × 卡数 × 有效训练时长利用率(一般0.6–0.8)
推理成本 = QPS × 单次峰值FLOPs × 平均并发时长 × 芯片单价比
存储与带宽 = 模型体积 × 冗余副本数 × 单GB月租 + CDN回源流量费
第三方API = 按调用量阶梯计价，需计算“自建模型成本–API成本”的盈亏平衡点
功能价值评估
采用“业务收益/算力消耗”比值，收益用北极星指标换算成钱：
- 电商推荐：GMV提成
- 金融风控：坏账减少金额
- 智能客服：人工坐席节省成本
  算出ROI=年收益÷年算力成本，ROI<1的直接进候选砍掉清单。
技术可行性滤镜
- 能否降级为规则或小模型（<1B参数）保持80%效果；
- 能否用缓存、采样、模型蒸馏把QPS压到1/3；
- 是否涉及多模态大模型，必须A100且无法迁移到国产卡。
合规与舆情滤镜
- 生成式内容若无“安全过滤模块”，砍掉后必触发监管处罚，成本反而更高；
- 人脸识别若写入治安协议，砍掉等于违约；
- 用户已付费的VIP功能，砍掉需退差价，计入沉没成本。
决策流程（可在面试现场用30秒口述）
Step1 数据拉取：财务给最新云账单，运维给GPU利用率报表，业务给功能ROI表；
Step2 打分排序：ROI×合规系数×技术迁移难度倒数，取倒数后升序排列；
Step3 红会评审：法务、合规、客户成功一票否决；
Step4 沙盘推演：砍掉后重新估算QPS、缓存命中率、客户投诉量；
Step5 老板拍板：出具《算力削减影响说明书》留痕，防止事后追责。

答案

示范回答（控制在2分30秒，供背诵）：
“如果算力预算明天被砍30%，我会按四步执行：
第一步，把账算清。把过去90天的账单拆成训练、推理、存储、第三方API四大块，发现推理占68%，训练占22%，剩下10%是存储带宽；再把推理按功能拆到‘千次调用成本’粒度。
第二步，用ROI排序。以电商场景为例，‘主推荐’功能每千次调用成本0.42元，带来GMV提成3.6元，ROI 8.5；‘图文生成卖点’功能每千次成本1.1元，带来额外转化0.8元，ROI 0.7；‘智能穿搭’多模态功能每千次成本2.3元，转化1.2元，ROI 0.5。ROI<1的两个功能进入候选砍掉清单。
第三步，过合规滤镜。‘图文生成卖点’虽ROI低，但包含敏感词过滤模块，砍掉后内容安全审核压力会转嫁到人工，综合罚金与人力反而贵，因此保留但做降级：用7B蒸馏模型替代40B大模型，GPU利用率降40%，效果下降6%，在可接受范围。
第四步，砍‘智能穿搭’。该功能依赖CLIP+Diffusion，必须A100，无法迁移到国产卡；且合同里未承诺实时生成，用户可以接受‘24小时内离线生成’。于是直接下线在线接口，改为每日批处理，把原来占用的50张A100释放掉，正好完成30%削减目标。
同时把决策过程写成《算力削减影响说明书》，含数据底表、ROI公式、合规评审记录，抄送财务、法务、客户成功，确保后续审计可查。预算恢复后，再按原路线图回滚。”

拓展思考

如果削减比例提升到70%，仅靠“砍功能”已不够，需要结构性优化：
- 训练侧：采用“MoE+激活稀疏”方案，把相同效果下的FLOPs降50%；
- 推理侧：引入“动态批处理+投机采样”，在P99延迟不变前提下吞吐翻倍；
- 商务侧：与云厂商重签“ preemptible GPU+国产化混合”协议，把单价再打7折；
- 必要时把非核心模型迁移到地方政府智算中心，享受补贴电价，单卡成本可降到公有云的40%。
反向利用预算危机推动技术升级：
把本次削减清单沉淀为“功能成本基线”仪表板，以后任何新功能评审必须填写“预估千次调用成本”，形成常态化机制，避免再次陷入“先上线后算账”的被动局面。