当算力预算被削减时,您会优先砍掉哪些AI功能?依据是什么?

解读

面试官想验证三件事:

  1. 能否把“算力”拆成可量化的成本项(训练、推理、存储、带宽、第三方API)。
  2. 能否把“功能”拆成对业务指标的边际贡献,而不是拍脑袋砍“最炫”的功能。
  3. 能否在合规、舆情、技术债之间做权衡,给出可复现、可审计的决策路径。

在国内落地场景里,还要考虑:

  • 监管红线(算法备案、数据出境、内容安全审核)不能碰;
  • 甲方客户常把“实时”“秒回”写进合同,延迟类SLA违约可能带来罚金;
  • 国产化算力(华为昇腾、寒武纪)与英伟达混合部署,不同芯片的单价差异可达3–5倍,需换算成“每千次调用成本”再比较。

知识点

  1. 算力成本拆解
    训练成本 = GPU小时 × 单价 × 卡数 × 有效训练时长利用率(一般0.6–0.8)
    推理成本 = QPS × 单次峰值FLOPs × 平均并发时长 × 芯片单价比
    存储与带宽 = 模型体积 × 冗余副本数 × 单GB月租 + CDN回源流量费
    第三方API = 按调用量阶梯计价,需计算“自建模型成本–API成本”的盈亏平衡点

  2. 功能价值评估
    采用“业务收益/算力消耗”比值,收益用北极星指标换算成钱:

    • 电商推荐:GMV提成
    • 金融风控:坏账减少金额
    • 智能客服:人工坐席节省成本
      算出ROI=年收益÷年算力成本,ROI<1的直接进候选砍掉清单。
  3. 技术可行性滤镜

    • 能否降级为规则或小模型(<1B参数)保持80%效果;
    • 能否用缓存、采样、模型蒸馏把QPS压到1/3;
    • 是否涉及多模态大模型,必须A100且无法迁移到国产卡。
  4. 合规与舆情滤镜

    • 生成式内容若无“安全过滤模块”,砍掉后必触发监管处罚,成本反而更高;
    • 人脸识别若写入治安协议,砍掉等于违约;
    • 用户已付费的VIP功能,砍掉需退差价,计入沉没成本。
  5. 决策流程(可在面试现场用30秒口述)
    Step1 数据拉取:财务给最新云账单,运维给GPU利用率报表,业务给功能ROI表;
    Step2 打分排序:ROI×合规系数×技术迁移难度倒数,取倒数后升序排列;
    Step3 红会评审:法务、合规、客户成功一票否决;
    Step4 沙盘推演:砍掉后重新估算QPS、缓存命中率、客户投诉量;
    Step5 老板拍板:出具《算力削减影响说明书》留痕,防止事后追责。

答案

示范回答(控制在2分30秒,供背诵):
“如果算力预算明天被砍30%,我会按四步执行:
第一步,把账算清。把过去90天的账单拆成训练、推理、存储、第三方API四大块,发现推理占68%,训练占22%,剩下10%是存储带宽;再把推理按功能拆到‘千次调用成本’粒度。
第二步,用ROI排序。以电商场景为例,‘主推荐’功能每千次调用成本0.42元,带来GMV提成3.6元,ROI 8.5;‘图文生成卖点’功能每千次成本1.1元,带来额外转化0.8元,ROI 0.7;‘智能穿搭’多模态功能每千次成本2.3元,转化1.2元,ROI 0.5。ROI<1的两个功能进入候选砍掉清单。
第三步,过合规滤镜。‘图文生成卖点’虽ROI低,但包含敏感词过滤模块,砍掉后内容安全审核压力会转嫁到人工,综合罚金与人力反而贵,因此保留但做降级:用7B蒸馏模型替代40B大模型,GPU利用率降40%,效果下降6%,在可接受范围。
第四步,砍‘智能穿搭’。该功能依赖CLIP+Diffusion,必须A100,无法迁移到国产卡;且合同里未承诺实时生成,用户可以接受‘24小时内离线生成’。于是直接下线在线接口,改为每日批处理,把原来占用的50张A100释放掉,正好完成30%削减目标。
同时把决策过程写成《算力削减影响说明书》,含数据底表、ROI公式、合规评审记录,抄送财务、法务、客户成功,确保后续审计可查。预算恢复后,再按原路线图回滚。”

拓展思考

  1. 如果削减比例提升到70%,仅靠“砍功能”已不够,需要结构性优化:

    • 训练侧:采用“MoE+激活稀疏”方案,把相同效果下的FLOPs降50%;
    • 推理侧:引入“动态批处理+投机采样”,在P99延迟不变前提下吞吐翻倍;
    • 商务侧:与云厂商重签“ preemptible GPU+国产化混合”协议,把单价再打7折;
    • 必要时把非核心模型迁移到地方政府智算中心,享受补贴电价,单卡成本可降到公有云的40%。
  2. 反向利用预算危机推动技术升级:
    把本次削减清单沉淀为“功能成本基线”仪表板,以后任何新功能评审必须填写“预估千次调用成本”,形成常态化机制,避免再次陷入“先上线后算账”的被动局面。