如何区分用户满意度的提升是源于AI功能本身,还是其他产品改进?
解读
面试官想验证三件事:
- 你是否具备“因果识别”意识——国内业务方最怕“拍脑袋归因”,一旦把增长算错,预算会被砍掉;
- 你是否熟悉国内可落地的数据闭环——国内数据基建差异大,很多公司无法做严格的 A/B,你得给出“土办法”;
- 你是否能把技术语言翻译成商业语言——让老板一眼看懂“AI 值不值”。
因此,回答必须同时给出“实验设计 + 指标拆解 + 合规注意点”,并体现对算法边界、数据成本、上线节奏的真实把控。
知识点
- 因果推断三板斧:随机对照实验(RCT)、双重差分(DID)、断点回归(RDD)。
- 国内常用“灰度 + 分层 + 工具变量”混合方案:因政策、应用商店审核、机型碎片化,纯 RCT 往往不可行。
- AI 功能特有指标:模型置信度、Bad Case 率、人工干预率、算力耗时;需与用户侧感知指标(留存、付费、NPS)做“桥接”。
- 数据合规:个人信息保护法、数据跨境评估办法,决定日志埋点粒度与存储周期,直接影响指标计算可行性。
- 成本视角:标注、训练、推理、回捞全链路成本,必须提前算好“单用户边际成本”,否则实验再漂亮也无法放量。
答案
我会用“三步隔离法”把 AI 功能的增量价值拆出来,兼顾国内灰度现实与合规要求。
第一步,实验前隔离:
- 功能级开关:把 AI 能力做成实时配置化开关,其余产品改动走正常迭代分支,确保二者可正交;
- 用户级随机桶:在账号维度哈希分桶,避开设备 ID 易变问题;对无法强登录的场景,用“设备+手机号”双因子绑定,降低稀释;
- 数据埋点对齐:提前在日志里打上“AI 版本号”“基线版本号”双标签,方便下游离线表关联,避免事后补埋点导致样本缺损。
第二步,实验中监控:
- 核心指标双差分:取实验组与对照组在实验前两周的“满意度基线”,用 DID 消除季节波动;
- 模型性能同步看:每天出“置信度分布+Bad Case Top 高频 Query”日报,若模型漂移导致满意度下降,当天可熔断;
- 成本边界卡控:设定“单用户日均推理耗时>120 ms 或 GPU 成本>0.03 元/人”即自动降流,防止“满意度涨、钱包瘪”的虚假繁荣。
第三步,实验后归因:
- 工具变量法:若仍有“同时上线会员优惠”混杂,用“AI 功能入口曝光次序”做 IV,近似随机冲击,二次验证;
- 用户访谈分层抽样:对满意度提升 Top 10% 与无感用户各抽 30 人,半结构化访谈,用“用户语言”确认是否真因 AI 结果更准;
- 收益折算:把净提升的满意度换算成“留存率↑1.2%、付费率↑0.5%”,再用 LTV 模型算一年增量利润,减去标注+训练+推理成本,给出 ROI>1 的结论,老板才敢全量。
通过以上设计,能把“AI 本身”带来的满意度提升锁定在 ±0.3 分(5 分制)误差带内,且灰度周期控制在 14 天,符合国内“快迭代、快复盘”节奏。
拓展思考
- 如果公司数据体量小(日活<10 万),随机分桶噪声大,可改用“时间片轮转”实验:按小时级开关 AI,用时间序列 Causal Impact 模型,但需排除周末、营销活动峰谷。
- 对生成式 AI,满意度提升可能来自“趣味性”而非“准确性”,此时要把 NPS 拆成“有用”与“好玩”两个因子,分别建模,否则后续一旦内容同质化,满意度会快速回落。
- 合规层面,若 AI 功能涉及“自动化决策”,需按《个人信息保护法》第 24 条提供“关闭权”,实验设计必须预留“拒绝桶”,否则全量后用户一键关闭,数据回流断裂,模型会立刻衰减。