当网络效应使方差增大10倍时，如何重新计算样本量？ - 问题详情 - 创脉思

解读

在国内互联网 A/B 实验场景里，网络效应（同组用户行为互相干扰）会打破“样本独立同分布”假设，导致指标方差被系统性放大。题目把放大倍数简化为 10 倍，本质是把 σ² 变成 10σ²。样本量公式里方差与样本量呈线性正比，因此若其他参数（α、β、最小可检测差 δ）不变，样本量必须同步放大 10 倍才能维持相同的统计功效（1–β）与显著性水平（α）。面试官想看候选人能否在 30 秒内把“方差↑10×”翻译成“样本量↑10×”，并给出可落地的工程方案。

知识点

经典样本量公式（两比例或两均值）： n₀ = (Z_{1–α/2} + Z_{1–β})² · 2σ² / δ²
其中 σ² 为方差，δ 为最小可检测差。
方差放大因子（VIF）：网络效应引入 VIF=10，新方差 σₙ² = VIF·σ²。
新样本量：n₁ = VIF · n₀ = 10 n₀。
工程落地三板斧：
- 集群随机化：以社区、班级、城市为随机单元，减少干扰；
- 图分区+双边实验：用图神经网络识别高内聚子图，分层实验；
- 方差修正+CV 控制：实时计算 VIF，动态调整流量，避免一次性放大 10× 造成资源浪费。

答案

第一步，回溯原实验样本量 n₀ 的计算前提，确认 α、β、δ 不变。
第二步，把方差项直接乘以网络效应带来的 10 倍放大因子，得到新样本量：
n₁ = 10 × n₀
第三步，在工程层面把随机单元从“用户”升级为“集群”，并在线监控 VIF，若实际 VIF<10 可提前结束实验，节省算力。
结论：样本量需线性放大 10 倍，同时用集群随机化降低真实 VIF，避免盲目堆量。

拓展思考

如果网络效应非均匀（核心 KOL 放大 20 倍，长尾用户放大 2 倍），可用分层 VIF 模型： n₁ = Σ_{k} w_k · VIF_k · n₀_k
其中 w_k 为层权重，VIF_k 为层内放大因子，实现精细化流量调配。
在 Agent 系统里，可把“样本量动态调节”封装成实验 Agent：实时读取图神经网络估计的 VIF，调用流量调度 API，自动完成在线样本量重算+流量扩缩容，实现实验运维闭环。
合规视角：国内《个人信息保护法》要求最小够用原则，盲目放大 10 倍样本可能触碰“过度采集”红线，需在随机单元脱敏与集群粒度选择上做平衡，确保既满足统计需求又符合监管要求。