如何设定实验流量分割策略?

解读

面试官问“如何设定实验流量分割策略”,核心想验证三件事:

  1. 你是否能把业务目标翻译成可量化的实验假设;
  2. 你是否熟悉国内主流A/B 测试平台(如火山引擎、腾讯灯塔、阿里达摩盘、神策实验云)的流量分配逻辑;
  3. 你能否在合规、灰度、成本、统计功效四重约束下,给出可落地的中国本土方案。
    回答时先给“判断标准”,再给“操作步骤”,最后用“风险兜底”收尾,才能体现资深用运的深度。

知识点

  1. 最小样本量与统计功效:国内普遍要求检验功效≥80%、α=0.05,可用火山引擎内置计算器直接算,但必须把业务核心指标(如次留、付费率、LTV)提前固化到数据银行,否则样本量会失真。
  2. 用户唯一标识:微信生态下 openId 与 unionId 并存,支付宝小程序用 userId,APP 端以设备+账号双键合并,才能避免同一用户重复进组;国内 DAU 过亿的产品还会做ID-Mapping 联邦化,防止 iOS14 隐私弹窗带来的设备漂移。
  3. 分层正交与流量饥饿:字节系“分层正交”默认 32 层,每层可跑 5 个实验;阿里系“域切割”把流量按业务域划为互斥桶、共享桶、保留桶,防止大促期间流量饥饿。面试时必须提到**“互斥锁”**机制,否则会被追问“如果两个实验同时改首页弹窗怎么办”。
  4. 灰度发布三段式:国内监管要求“先审后发”,实验必须先走内部白名单→1% 灰度→5% 全量三段,且每段需备案到工信部APP 技术检测系统,否则下架风险极高。
  5. 实时熔断规则:当指标跌幅≥核心 KPI 的 30% 或 p 值<0.01 且负向时,5 分钟内自动回滚;该阈值在拼多多、美团等头部公司已写入 SLA,面试时直接引用可加分。

答案

设定实验流量分割策略,我按“四步七要素”执行:
第一步:锁定目标与假设
把业务 OKR 拆成唯一核心指标(如“下单转化率提升≥2%”),并定义** guarding metric**(如退款率≤基准+0.5pp),防止业务侧“杀鸡取卵”。

第二步:计算最小样本量
用火山引擎样本量计算器,输入基准转化率 5%、MDE 2%、功效 80%、双尾 α=0.05,得出每组需 28k 用户;若 DAU 100 万,按 7 天实验周期,只需 5.6% 流量即可,预留 10% 的缓冲桶应对数据延迟。

第三步:选择分割方式

  1. 若实验只改首页弹窗,用**“时间片轮换+用户哈希”双层分割,先按用户 ID 末两位哈希到 100 桶,再按小时级时间片轮换,确保工作日与周末样本比例一致**;
  2. 若实验涉及会员价格,必须**“业务域互斥”**,将会员频道流量单独划为 20% 的互斥桶,防止价格敏感用户被其他优惠实验干扰;
  3. 微信生态内,用**“unionId 取模”**做分割,先剔除近 7 日已参与其他实验的用户,避免交叉污染。

第四步:灰度与熔断

  1. 先内部白名单 100 人跑 24h,验证埋点无丢失;
  2. 再开 1% 灰度 24h,观察实时看板核心指标无≥30% 跌幅;
  3. 扩量至 5% 跑满 7 天,每日 10:00、16:00、22:00 三次假设检验自动刷新,若 p 值<0.01 且负向,立即触发自动回滚脚本,并飞书群通知业务 owner;
  4. 实验结束次日,输出AA 校验报告(p 值>0.2 才算通过),再提交工信部备案号,完成闭环。

通过以上四步,我曾在唯品会“新人红包面额实验”中,用 6% 流量 5 天验证出“8 元红包比 12 元红包 ROI 高 11%”,最终全量发布,季度新增 GMV 1.3 亿

拓展思考

  1. 多指标权衡:当核心指标提升 2% 但次留下降 1% 时,国内头部公司会用**“北极星指标+约束指标”**的加权模型(如 0.7×转化率+0.3×次留)做综合决策,面试可主动提问“贵司是否已建立类似加权公式”体现前瞻性。
  2. 隐私合规升级:2024 年《个人信息出境标准合同办法》生效后,跨境实验数据需做本地化脱敏;若候选人有海外实验经验,可反向强调自己熟悉“数据不出境”改造方案,增加差异化优势。
  3. 实验文化推广:在多数中国传统企业,业务方仍习惯“拍脑袋全量”,可提出**“实验成熟度模型”**(0 级无实验→4 级全自动),并配套“实验积分”纳入 KPI,帮助公司从 1 个月 5 个实验提升到 1 周 50 个实验,彰显战略视角。