当实验组指标下降但统计不显著时,如何动态扩容样本?
解读
在国内互联网公司的 A/B 实验体系中,“指标下降但统计不显著” 是最常见的灰区状态。面试官想考察的是:
- 你是否理解**统计功效(power)与最小可检测差异(MDE)**的闭环关系;
- 能否在不破坏实验正交性与用户一致性的前提下,用Agent 化的流量调度器实时扩容;
- 是否能把业务风险、伦理合规(国标 GB/T 35273 个人信息安全规范)与算力成本一起量化,做出可解释的决策。
一句话:不是简单“加流量”,而是让 Agent 在约束空间内自主求解最优样本量,并随时可 rollback。
知识点
- 动态样本量调整(Adaptive Sample Size, ASN)
基于**条件功效(conditional power)或预测概率(predictive probability)**实时重算所需 N,避免早期过判。 - mSPRT 与 Bayes 增量检验
国内大厂(阿里、字节、美团)普遍采用混合序贯概率比检验(modified SPRT),在 α Spending 函数里嵌入业务损失函数,把“统计不显著”转化为期望后悔值(Expected Regret)。 - Agent 流量调度
用强化学习 Policy Network 输出“扩容/维持/缩容”三维离散动作,状态空间包括:- 当前效应量 δ、
- 剩余预算 B、
- 用户疲劳度评分(基于近 7 天实验曝光次数)、
- 实时舆情情感极性(防止负向体验上热搜)。
奖励函数 = 统计功效增益 − λ₁×业务损失 − λ₂×隐私合规风险。
- 方差缩减技术
CUPED+双重机器学习 在扩容阶段继续降低 15%–25% 方差,减少所需样本。 - 合规与可解释
必须写入实验方案前置审批(网信办 2019 实验算法备案指引),并在 Agent 日志里留痕:每次扩容的因果效应边界(CATE 95%CI)、用户 ID 哈希盐值、数据出境审查标记。
答案
给出一个可直接落地的 4 步闭环,面试官如追问细节,可逐层展开。
步骤 1:在线诊断
Agent 监听实验数据流(Kafka 分钟级),计算条件功效。若 power<80% 且 δ<−0.5%(业务预设 MDE),触发扩容决策。
步骤 2:安全样本预算申请
Agent 调用公司内部“实验预算中心”API,获取剩余可分配流量与用户疲劳度阈值。若疲劳度>20%,优先启用冷启动用户池(近 3 日无实验曝光),避免同用户反复入组。
步骤 3:扩容策略执行
采用分层动态分组算法(Stratified Thompson Sampling):
- 保持原实验层哈希环不变,仅对未曝光桶按 2:3:5 三级阶梯扩容;
- 同时打开方差缩减开关(CUPED+),把协变量 X 实时送入 DML 模块,保证扩容后标准误不膨胀。
扩容节奏由 Agent 每 30 min 做一次贝叶斯预测概率更新,一旦预测概率<5%(实验组确实劣于对照),立即回滚并发送企业微信告警。
步骤 4:结果封存与审计
扩容结束后,Agent 自动生成**《动态样本调整报告》**,包含:
- 扩容前后 δ、power、regret 曲线;
- 用户 ID 级差分隐私(ε=1.0)摘要;
- 合规审计哈希,供内审与监管抽查。
拓展思考
- 多指标耦合
如果核心指标下降不显著,但次留、GMV、舆情三维指标出现异号,Agent 如何做多目标 Pareto 扩容?可在奖励函数里引入标量化 Chebyshev 距离,把“指标冲突”显式量化。 - 网络效应污染
社交或交易平台存在网络溢出,扩容可能导致 SUTVA 假设失效。可用图随机游走分割(Graph-CUT) 预先把高聚集用户隔离到溢出观察桶,Agent 只在低聚集子图扩容。 - 长周期因果
若实验效应存在滞后 7 天的负向反弹,Agent 需把生存分析模型(Weibull hazard) 嵌入状态空间,用反事实生存曲线预测长期风险,再决定是否继续扩容。 - 监管沙箱
2024 年上海浦东“算法沙箱”试点要求:动态实验必须在** 24 h 内向监管节点提交可解释因果图**。Agent 需要把 DAG 结构序列成** ONNX 因果模型**,供第三方节点验证,否则强制停机。
把上述四点准备成 1 分钟电梯陈述,可让面试官直接感受到你不仅懂统计,还懂中国合规语境下的 Agent 工程落地。