如何评估实验结果显著性(t检验)?

解读

面试官问“如何评估实验结果显著性(t检验)”,并不是想听你背公式,而是想看你是否能把“数据驱动”这一用户运营核心理念落到实操:

  1. 能否把业务目标翻译成可检验的统计假设;
  2. 能否在中国真实的流量环境与样本限制下,选出合适的检验方式并解释结果;
  3. 能否把p值、置信区间、最小可检测差异(MDE)这些指标转化为“能不能放量”“对ROI影响多大”的运营语言。
    一句话:让统计结论成为运营决策的充分条件,而不是“看起来显著”就完事

知识点

  1. 实验设计三件套:随机分流、样本量测算、唯一变量。
  2. t检验前提:独立样本、近似正态、方差齐性;日活不足10万时,优先用Welch’s t检验避免方差不等带来的假阳性。
  3. 核心指标选取:用户运营场景下,留存率、付费转化率、LTV多为率指标,需用双样本比例z检验;只有连续型指标(如人均时长、客单价)才直接上t检验。
  4. 显著性阈值:国内互联网AB测试普遍采用α=0.05(双侧),但涉及金钱补贴或短信召回,需把α收紧到0.01降低用户骚扰风险。
  5. 统计+业务双重门
    • 统计显著 p<α;
    • 业务显著 提升≥MDE(Minimum Detectable Effect),例如留存绝对值↑≥1个百分点或ROI≥0。
  6. 多重检验校正:同时跑>5个实验组时,必须用Benjamini-Hochberg FDR控制整体假阳性率,否则“显著”结果90%是噪音。
  7. 置信区间报告:不仅给点估计,还要给出95%CI,如“人均时长提升+30秒(95%CI: 5秒, 55秒)”,让老板一眼看到最坏/最好情况。
  8. Python/R一键代码
    Python: scipy.stats.ttest_ind(groupA, groupB, equal_var=False)
    R: t.test(revenue ~ group, data=df)
  9. 结果可视化:国内汇报习惯用“提升率+置信区间”柱状图,横轴标注样本量,防止“大样本陷阱”。

答案

以“新用户7日留存”实验为例,思路四步走:

  1. 明确假设
    • H0:实验组与对照组7日留存率无差异;
    • H1:实验组7日留存率高于对照组。
  2. 样本量测算
    用历史留存基准15%、期望相对提升10%(即1.5个百分点),功效80%、α=0.05,计算每组需11 200人;若渠道日拉新仅5千,需拉长到3天积累样本。
  3. 跑检验
    留存是二分类率指标,直接用双样本z检验而非t检验:
    z = (p1-p2)/√[p*(1-p)*(1/n1+1/n2)]
    
    得到z=2.47,p=0.0068<0.05,拒绝H0。
  4. 业务解读
    • 留存绝对值↑1.6个百分点,超过预设MDE 1.5个百分点
    • 95%CI为[+0.9, +2.3]个百分点,下限仍为正,说明提升稳定;
    • 结合补贴成本,单用户净利+2.3元,ROI>0,可全量发布。
      若指标为连续型(如人均GMV),则改用Welch’s t检验,步骤同上,只需把“率”换成“均值”即可。

拓展思考

  1. 当样本量巨大(>100万)时,p值几乎必“显著”,此时应把重点移到效应量(Cohen’s d)成本收益分析,避免“统计显著但业务可忽略”的放量。
  2. 国内很多公司采用“7天滚动实验”策略,实验组每天进新用户,需用混合效应模型CUPED减少时间混杂,提高检验灵敏度。
  3. 若实验涉及多个圈层(如新老用户、iOS/安卓),建议先做分层随机化,再用多重比较+交互效应检验,防止“辛普森悖论”把整体正向结论带到负向。
  4. 实验结束后,持续跟踪长期留存与品牌NPS,用survival analysis验证t检验看到的短期提升是否衰减,形成“实验—迭代—再实验”闭环,这才是用户运营真正的“显著”。