如何判断一个AI功能是解决了核心痛点,还是仅仅增加了系统复杂性?

解读

面试官想验证三件事:

  1. 你是否能把“痛点”拆成可量化的业务指标,而不是拍脑袋;
  2. 你是否具备“算法-数据-成本”三位一体视角,能预判AI方案的真实ROI;
  3. 你是否建立了上线后持续回收数据、反向验证假设的闭环机制。
    一句话:不是问“功能酷不酷”,而是问“值不值、能不能、久不久”。

知识点

  1. 痛点三要素:强度(用户愿意付出多少成本)、频次(需求出现密度)、替代成本(不用AI的代价)。
  2. AI功能特有的“复杂度税”:数据标注成本、模型迭代周期、算力消耗、合规审批、可解释性要求。
  3. 技术可行边界:样本量≥10×特征维度、正负例比例≤1:20、线上延迟≤业务容忍上限的30%、算法指标提升≥基线5%才触达用户可感知阈值。
  4. 商业验证公式:Δ业务指标 × 指标货币化系数 − (数据成本 + 算力成本 + 维护成本 + 风险溢价) > 0。
  5. 国内落地特殊约束:个人信息保护法(PIPL)下的最小可用原则、算法备案、网信办A/B测试白名单、国企/金融客户对可解释报告的强制要求。
  6. 数据闭环指标:上线后7日回流数据量/训练数据量 ≥15%,模型漂移PSI≤0.1,用户负反馈率≤1%。

答案

我采用“四阶十二问”模型快速过滤:

阶段1:需求真伪
① 强度:若明天下线该功能,核心用户是否愿意多付10%费用或增加30%使用时长?
② 频次:过去30天该场景PV占大盘比例是否≥5%?
③ 替代成本:现有规则或人力方案的综合成本是否高于AI方案预估成本的1.5倍?

阶段2:技术可行
④ 数据:已沉淀可标注样本≥1万条且标注成本≤项目预算20%?
⑤ 指标:离线基线F1≥0.6,且预期提升≥5个百分点即可覆盖用户可感知阈值?
⑥ 延迟:线上推理P99延迟≤业务容忍值(如电商搜索≤120 ms)?

阶段3:商业合算
⑦ 货币化:Δ转化率或Δ人效带来的年化收益≥(数据+算力+维护)总成本的3倍?
⑧ 风险:合规评审一次性通过概率≥80%,若需算法备案,时间窗口是否≤3个月?
⑨ 维护:模型更新周期≥3个月,且单次迭代人力≤1 PD/月?

阶段4:闭环可持续
⑩ 数据回流:上线后每日可自动回收带标签数据≥训练集1%?
⑪ 漂移监控:PSI>0.1时能否在48小时内触发自动重训?
⑫ 用户负反馈:投诉或“不再推荐”率≤1%,且可定位到特征级别根因?

只有十二问全部“yes”,我才认定该AI功能解决的是核心痛点;任一“no”即视为增加系统复杂性,暂停或降级为规则方案。

拓展思考

  1. 灰度反向验证:先上线“假AI”(随机策略+人工兜底),若业务指标仍显著上涨,说明痛点真实但AI非唯一解,可降级为轻规则。
  2. 复杂度折现曲线:把模型参数量、特征维度、标注人日折算成“技术债”,用OKR方式逐季度偿还,防止“隐形复杂性”滚雪球。
  3. 国内甲方博弈:在国企、金融客户场景,提前把“可解释报告+算法备案+数据出境评估”写入合同里程碑,避免验收时因合规材料不全被一票否决。