如何衡量样本量对结果显著性的影响?
解读
面试官问的不是“样本量越大越好”这种常识,而是想看你是否能把统计显著性与业务显著性拆开,并在中国互联网“小步快跑、快速迭代”的节奏里,给出可落地的判断标准。核心考点有三层:
- 你能否用统计功效(1−β)与最小可检测差异(MDE)反推所需样本;
- 你能否结合DAU、留存率、转化率等业务指标,判断当前样本是否足够;
- 你能否在流量有限、实验排期紧张的真实场景下,做出“继续跑 or 及时止损”的运营决策。
知识点
- 显著性水平α:国内AB实验普遍取0.05,对应95%置信度;若实验涉及补贴或风控,可收紧到0.01。
- 统计功效:互联网大厂默认**≥80%,初创团队可放宽到70%,但需同步评估第一类错误成本**。
- 最小可检测差异(MDE):由运营目标反推,例如把次日留存从35%提升到37%,绝对值+2pp,相对提升≈5.7%,该值直接决定样本量。
- 样本量计算公式:两比例z检验下,n=2×(Z_(1−α/2)+Z_(1−β))^2×p(1−p)/Δ^2,其中p为对照组基准率,Δ为MDE。
- 流量分层与正交:国内常用UUID哈希+层桶方案,确保实验用户无偏且可复用;若DAU仅50万,需提前评估实验周期与节假日效应。
- 序贯检验与贝叶斯:在补贴敏感或长周期留存场景,可用mSPRT或贝叶斯因子提前停止实验,降低用户损耗。
- 业务显著性阈值:即使p<0.05,若提升幅度低于0.5pp或ROI<1,仍视为不显著,避免“统计显著但业务鸡肋”。
答案
“衡量样本量对结果显著性的影响,我会分三步走:
第一步,用MDE倒推最小样本。以拉新裂变实验为例,目标是把新用户7日留存从30%提到33%,MDE=3pp,α=0.05,power=80%,基准率p=0.3,代入公式算得每组至少需要4 930人,双组≈1万。若目前实验桶只有6 000人,则功效不足,需继续跑或扩大流量。
第二步,实时监控置信区间。在实验第3天,发现实验组留存32.5%,对照30%,差异2.5pp,但95%CI=[−0.5pp, +5.5pp],区间跨0,说明统计不显著;同时计算贝叶斯因子BF10=1.8,仅呈“微弱证据”,此时不会全量发布。
第三步,结合业务成本做决策。假设每日补贴预算5万元,多跑一天就多烧5万,而预期提升带来的月留存增量价值仅3万元,则即使样本量够了,也会提前止损,并把流量让给更高ROI的实验。最终,我输出一份实验报告,包含:样本量预估、实际进组、功效复盘、置信区间、ROI测算与下一步运营动作,让老板一眼看懂“数据→结论→决策”闭环。
拓展思考
- 小样本场景:若你是小程序私域运营,DAU只有2万,传统z检验样本不够,可改用CUPED+协变量降方差,或切换序贯检验,在7天内动态停止,减少用户疲劳。
- 多指标权衡:做会员转化实验,同时看支付转化率与客单价,需用FDR校正控制家族错误率,避免“指标越多、假阳性越高”。
- 长期效应:实验组留存短期+2pp,但30日留存回落,需引入survival analysis判断真实LTV提升,防止“早期显著、长期无效”的幸存者偏差。