在进行AI模型AB测试时,如何确保实验组和对照组的流量分配无偏且统计显著?
解读
面试官想验证三件事:
- 你是否把“无偏”理解为“样本代表性与随机性”,而非简单“五五开”;
- 你是否知道国内常见“灰度—放量—全量”节奏下,如何兼顾统计功效与业务安全;
- 你是否能把“算法指标”翻译成“业务指标”,并提前设计数据回收与决策阈值。
回答必须体现“算法-工程-合规”三位一体视角,且给出可落地的国内实操细节。
知识点
- 随机化单元:用户粒度 vs 设备粒度 vs 会话粒度,国内多App双端登录态不一致,需用“用户ID+设备指纹”联合哈希。
- 分流种子:必须采用“业务无感”的哈希因子(如user_id+日期+实验层layer_id),避免运营活动或push触达造成选择性偏差。
- 样本量计算:国内常用业务指标多为“转化率、人均时长、ROI”,需用相对提升Δ、基线p、功效80%、α=0.05的双侧检验,提前用封闭公式或字节/阿里开源样本量计算器锁定最小样本。
- 多层实验与正交:国内大厂普遍采用Google分层重叠框架(Layer+Domain),AI模型实验必须独占“模型层”,避免与运营活动层冲突。
- 因果推断陷阱:AI模型常伴随“冷启动数据漂移”,需预留“burn-in”期(一般24h)并采用CUPED或双重差分降低方差。
- 合规红线:个人信息保护法要求“最小可用+可撤销”,分流ID必须可逆映射回用户,方便用户行使删除权;实验前需在隐私政策内声明“自动化决策测试”场景。
- 统计显著≠业务显著:提前设定“业务MDE(Minimum Detectable Effect)”,如推荐场景人均时长提升<1%即认为无意义,直接终止实验,避免“p值猎奇”。
- 线上监控:国内4G/5G网络异构,需分省、分运营商、分机型查看SRM(Sample Ratio Mismatch)告警,SRM>χ²检验阈值即刻下线。
答案
“确保无偏且统计显著”我拆成五步,全部在国内真实环境落地过:
第一步,锁定实验对象与指标。以“首页推荐模型V2.1”为例,核心指标是“人均图文消费时长”,辅助指标“点击率、负反馈率”,合规指标“用户删除请求量”。
第二步,计算最小样本。基线人均时长65s,预期相对提升3%,标准差用历史7日数据估算,α=0.05,power=0.8,经样本量公式得出每组需46万用户;考虑7日留存率90%,故需放量51万UV。
第三步,无偏分流。采用“用户ID+20240618+layer_17”拼接后做SHA256取模,按50:50切流;同时写入正交层,确保与其他40个并行实验正交。分流服务在网关层完成,延迟<0.3ms,支持实时撤销。
第四步,上线前校验。灰度1%阶段,用χ²检验验证实验组vs对照组的性别、年龄、省份、机型分布,p值>0.05方可继续放量;同时监控SRM,若24h内样本比例偏离>0.5%立即熔断。
第五步,决策与迭代。实验满7日后,核心指标提升3.2%,p=0.008,通过统计显著;但业务MDE预设为3%,因此判定“小幅正向”,决定全量;同时把实验组模型回滚10%流量作为“持续对照组”,用于下周模型V2.2的差分基线,形成国内合规要求的“可追溯审计日志”。
拓展思考
- 当实验指标为“长尾收入”且方差极大时,可采用“对数变换+Winsorize 1%”或“贝叶斯层次模型”提升检验效率,但需在PRD中提前声明近似精度,避免财务审计争议。
- 若模型涉及生成式内容,需额外关注“安全拒答率”这一负向指标,建议采用“双尾检验+非劣效”复合设计,确保创新体验不带来合规风险。
- 国内厂商正在试点“联邦学习+AB框架”,未来可在数据不出域的情况下完成跨端联合实验,产品经理需提前设计“加密ID对齐”与“指标可解释”方案,迎接监管审查。