当实验组指标下降但统计不显著时，如何动态扩容样本？ - 问题详情 - 创脉思

解读

在国内互联网公司的 A/B 实验体系中，“指标下降但统计不显著” 是最常见的灰区状态。面试官想考察的是：

一句话：不是简单“加流量”，而是让 Agent 在约束空间内自主求解最优样本量，并随时可 rollback。

动态样本量调整（Adaptive Sample Size, ASN）
基于**条件功效（conditional power）或预测概率（predictive probability）**实时重算所需 N，避免早期过判。
mSPRT 与 Bayes 增量检验
国内大厂（阿里、字节、美团）普遍采用混合序贯概率比检验（modified SPRT），在 α Spending 函数里嵌入业务损失函数，把“统计不显著”转化为期望后悔值（Expected Regret）。
Agent 流量调度
用强化学习 Policy Network 输出“扩容/维持/缩容”三维离散动作，状态空间包括：
- 当前效应量 δ、
- 剩余预算 B、
- 用户疲劳度评分（基于近 7 天实验曝光次数）、
- 实时舆情情感极性（防止负向体验上热搜）。
  奖励函数 = 统计功效增益 − λ₁×业务损失 − λ₂×隐私合规风险。
方差缩减技术
CUPED+双重机器学习 在扩容阶段继续降低 15%–25% 方差，减少所需样本。
合规与可解释
必须写入实验方案前置审批（网信办 2019 实验算法备案指引），并在 Agent 日志里留痕：每次扩容的因果效应边界（CATE 95%CI）、用户 ID 哈希盐值、数据出境审查标记。

给出一个可直接落地的 4 步闭环，面试官如追问细节，可逐层展开。

步骤 1：在线诊断
Agent 监听实验数据流（Kafka 分钟级），计算条件功效。若 power<80% 且 δ<−0.5%（业务预设 MDE），触发扩容决策。

步骤 2：安全样本预算申请
Agent 调用公司内部“实验预算中心”API，获取剩余可分配流量与用户疲劳度阈值。若疲劳度>20%，优先启用冷启动用户池（近 3 日无实验曝光），避免同用户反复入组。

步骤 3：扩容策略执行
采用分层动态分组算法（Stratified Thompson Sampling）：

保持原实验层哈希环不变，仅对未曝光桶按 2:3:5 三级阶梯扩容；
同时打开方差缩减开关（CUPED+），把协变量 X 实时送入 DML 模块，保证扩容后标准误不膨胀。
扩容节奏由 Agent 每 30 min 做一次贝叶斯预测概率更新，一旦预测概率<5%（实验组确实劣于对照），立即回滚并发送企业微信告警。

步骤 4：结果封存与审计
扩容结束后，Agent 自动生成**《动态样本调整报告》**，包含：

多指标耦合
如果核心指标下降不显著，但次留、GMV、舆情三维指标出现异号，Agent 如何做多目标 Pareto 扩容？可在奖励函数里引入标量化 Chebyshev 距离，把“指标冲突”显式量化。
网络效应污染
社交或交易平台存在网络溢出，扩容可能导致 SUTVA 假设失效。可用图随机游走分割（Graph-CUT） 预先把高聚集用户隔离到溢出观察桶，Agent 只在低聚集子图扩容。
长周期因果
若实验效应存在滞后 7 天的负向反弹，Agent 需把生存分析模型（Weibull hazard） 嵌入状态空间，用反事实生存曲线预测长期风险，再决定是否继续扩容。
监管沙箱
2024 年上海浦东“算法沙箱”试点要求：动态实验必须在** 24 h 内向监管节点提交可解释因果图**。Agent 需要把 DAG 结构序列成** ONNX 因果模型**，供第三方节点验证，否则强制停机。

把上述四点准备成 1 分钟电梯陈述，可让面试官直接感受到你不仅懂统计，还懂中国合规语境下的 Agent 工程落地。