当网络效应使方差增大10倍时,如何重新计算样本量?

解读

在国内互联网 A/B 实验场景里,网络效应(同组用户行为互相干扰)会打破“样本独立同分布”假设,导致指标方差被系统性放大。题目把放大倍数简化为 10 倍,本质是把 σ² 变成 10σ²。样本量公式里方差与样本量呈线性正比,因此若其他参数(α、β、最小可检测差 δ)不变,样本量必须同步放大 10 倍才能维持相同的统计功效(1–β)显著性水平(α)。面试官想看候选人能否在 30 秒内把“方差↑10×”翻译成“样本量↑10×”,并给出可落地的工程方案。

知识点

  1. 经典样本量公式(两比例或两均值): n₀ = (Z_{1–α/2} + Z_{1–β})² · 2σ² / δ²
    其中 σ² 为方差,δ 为最小可检测差
  2. 方差放大因子(VIF):网络效应引入 VIF=10,新方差 σₙ² = VIF·σ²。
  3. 新样本量:n₁ = VIF · n₀ = 10 n₀
  4. 工程落地三板斧:
    • 集群随机化:以社区、班级、城市为随机单元,减少干扰;
    • 图分区+双边实验:用图神经网络识别高内聚子图,分层实验;
    • 方差修正+CV 控制:实时计算 VIF,动态调整流量,避免一次性放大 10× 造成资源浪费。

答案

第一步,回溯原实验样本量 n₀ 的计算前提,确认 α、β、δ 不变。
第二步,把方差项直接乘以网络效应带来的 10 倍放大因子,得到新样本量:
n₁ = 10 × n₀
第三步,在工程层面把随机单元从“用户”升级为“集群”,并在线监控 VIF,若实际 VIF<10 可提前结束实验,节省算力。
结论:样本量需线性放大 10 倍,同时用集群随机化降低真实 VIF,避免盲目堆量。

拓展思考

  1. 如果网络效应非均匀(核心 KOL 放大 20 倍,长尾用户放大 2 倍),可用分层 VIF 模型: n₁ = Σ_{k} w_k · VIF_k · n₀_k
    其中 w_k 为层权重,VIF_k 为层内放大因子,实现精细化流量调配
  2. 在 Agent 系统里,可把“样本量动态调节”封装成实验 Agent:实时读取图神经网络估计的 VIF,调用流量调度 API,自动完成在线样本量重算+流量扩缩容,实现实验运维闭环。
  3. 合规视角:国内《个人信息保护法》要求最小够用原则,盲目放大 10 倍样本可能触碰“过度采集”红线,需在随机单元脱敏集群粒度选择上做平衡,确保既满足统计需求又符合监管要求。