当实验组指标下降但统计不显著时,如何动态扩容样本?

解读

在国内互联网公司的 A/B 实验体系中,“指标下降但统计不显著” 是最常见的灰区状态。面试官想考察的是:

  1. 你是否理解**统计功效(power)最小可检测差异(MDE)**的闭环关系;
  2. 能否在不破坏实验正交性与用户一致性的前提下,用Agent 化的流量调度器实时扩容;
  3. 是否能把业务风险伦理合规(国标 GB/T 35273 个人信息安全规范)与算力成本一起量化,做出可解释的决策。

一句话:不是简单“加流量”,而是让 Agent 在约束空间内自主求解最优样本量,并随时可 rollback。

知识点

  1. 动态样本量调整(Adaptive Sample Size, ASN)
    基于**条件功效(conditional power)预测概率(predictive probability)**实时重算所需 N,避免早期过判。
  2. mSPRT 与 Bayes 增量检验
    国内大厂(阿里、字节、美团)普遍采用混合序贯概率比检验(modified SPRT),在 α Spending 函数里嵌入业务损失函数,把“统计不显著”转化为期望后悔值(Expected Regret)
  3. Agent 流量调度
    强化学习 Policy Network 输出“扩容/维持/缩容”三维离散动作,状态空间包括:
    • 当前效应量 δ、
    • 剩余预算 B、
    • 用户疲劳度评分(基于近 7 天实验曝光次数)、
    • 实时舆情情感极性(防止负向体验上热搜)。
      奖励函数 = 统计功效增益 − λ₁×业务损失 − λ₂×隐私合规风险。
  4. 方差缩减技术
    CUPED+双重机器学习 在扩容阶段继续降低 15%–25% 方差,减少所需样本。
  5. 合规与可解释
    必须写入实验方案前置审批(网信办 2019 实验算法备案指引),并在 Agent 日志里留痕:每次扩容的因果效应边界(CATE 95%CI)用户 ID 哈希盐值数据出境审查标记

答案

给出一个可直接落地的 4 步闭环,面试官如追问细节,可逐层展开。

步骤 1:在线诊断
Agent 监听实验数据流(Kafka 分钟级),计算条件功效。若 power<80% 且 δ<−0.5%(业务预设 MDE),触发扩容决策。

步骤 2:安全样本预算申请
Agent 调用公司内部“实验预算中心”API,获取剩余可分配流量用户疲劳度阈值。若疲劳度>20%,优先启用冷启动用户池(近 3 日无实验曝光),避免同用户反复入组。

步骤 3:扩容策略执行
采用分层动态分组算法(Stratified Thompson Sampling)

  • 保持原实验层哈希环不变,仅对未曝光桶按 2:3:5 三级阶梯扩容;
  • 同时打开方差缩减开关(CUPED+),把协变量 X 实时送入 DML 模块,保证扩容后标准误不膨胀。
    扩容节奏由 Agent 每 30 min 做一次贝叶斯预测概率更新,一旦预测概率<5%(实验组确实劣于对照),立即回滚并发送企业微信告警。

步骤 4:结果封存与审计
扩容结束后,Agent 自动生成**《动态样本调整报告》**,包含:

  • 扩容前后 δ、power、regret 曲线;
  • 用户 ID 级差分隐私(ε=1.0)摘要;
  • 合规审计哈希,供内审与监管抽查。

拓展思考

  1. 多指标耦合
    如果核心指标下降不显著,但次留、GMV、舆情三维指标出现异号,Agent 如何做多目标 Pareto 扩容?可在奖励函数里引入标量化 Chebyshev 距离,把“指标冲突”显式量化。
  2. 网络效应污染
    社交或交易平台存在网络溢出,扩容可能导致 SUTVA 假设失效。可用图随机游走分割(Graph-CUT) 预先把高聚集用户隔离到溢出观察桶,Agent 只在低聚集子图扩容。
  3. 长周期因果
    若实验效应存在滞后 7 天的负向反弹,Agent 需把生存分析模型(Weibull hazard) 嵌入状态空间,用反事实生存曲线预测长期风险,再决定是否继续扩容。
  4. 监管沙箱
    2024 年上海浦东“算法沙箱”试点要求:动态实验必须在** 24 h 内向监管节点提交可解释因果图**。Agent 需要把 DAG 结构序列成** ONNX 因果模型**,供第三方节点验证,否则强制停机。

把上述四点准备成 1 分钟电梯陈述,可让面试官直接感受到你不仅懂统计,还懂中国合规语境下的 Agent 工程落地