如何构建分群GMV对比的“双重差分”模型?

解读

面试官问“分群GMV对比的双重差分模型”,核心想验证三件事:

  1. 你是否理解中国电商/本地生活业务常用的分群维度(如渠道来源、会员等级、城市级别、补贴敏感度);
  2. 能否把“实验组 vs 对照组”与“活动前 vs 活动后”这两个差分维度同时纳入模型,剥离季节因素、自然增长、外部流量波动等混杂变量;
  3. 是否能把统计结果翻译成运营动作:哪些人群值得追加预算、哪些人群该降补贴、如何优化券包门槛。

回答时必须给出可落地的建模步骤、变量清单、显著性判断标准,并指出国内数据埋点常见坑点,否则会被认为“只懂理论,不会干活”。

知识点

  1. 双重差分(DiD)核心假设:平行趋势——实验组与对照组在活动前GMV趋势一致;
  2. 国内常用分群标签
    • 渠道分群:抖音直播间、淘宝站内、微信小程序、线下扫码;
    • 价值分群:RFM+LTV 分层,如高价值衰退期用户、低价值潜力用户;
    • 补贴敏感度分群:基于历史核销率、券面额弹性系数;
  3. GMV口径:国内普遍采用实付+券后GMV,需剔除退款、刷单、风控订单
  4. 显著性判断:实验样本量<10万时,聚类稳健标准误到用户维度,避免伪显著;
  5. 政策/平台大促干扰:需加入平台级大促虚拟变量(如618、双11),否则DiD系数会被高估。

答案

步骤一:定义实验

  1. 选定实验组——“高补贴敏感度且近30天GMV下滑≥20%”的用户群;
  2. 用**倾向得分匹配(PSM)**在同期未下滑人群里1:1找对照组,匹配变量:近30天GMV、品类偏好、城市等级、券核销率;
  3. 实验窗口:活动前14天+活动中14天+活动后14天,确保覆盖补贴衰减期

步骤二:构建模型
建立面板回归:
GMV(i,t) = α + β1·Treat(i) + β2·Post(t) + β3·Treat(i)×Post(t) + γX(i,t) + ε(i,t)
其中:

  • Treat(i)=1 为实验组;
  • Post(t)=1 为活动中及活动后;
  • β3即为双重差分系数,衡量“补贴策略”带来的净GMV提升;
  • X(i,t) 加入日级大促虚拟变量、节假日、天气、疫情管控等级,控制外部冲击。

步骤三:结果判读与运营翻译

  1. β3显著为正ROI=β3×净GMV/补贴成本>1.2(国内头部平台及格线),则对该分群扩大补贴预算30%
  2. 若β3显著但ROI<1,则降低券面额或提升门槛,并做二次DiD验证;
  3. 若β3不显著,则放弃该分群补贴,转向内容或权益运营

步骤四:国内数据坑点自检

  • 用户粒度的聚类标准误,避免“订单数>>用户数”导致的t值虚高;
  • 剔除企业购、黄牛设备号(近30天下单设备数>5或收货地址含“公司”“仓库”关键词);
  • 检查平台券叠加规则变化,防止“券力度突变”被误判为实验效应。

拓展思考

  1. 三重差分(DDD):在DiD基础上再分“城市等级”维度,验证下沉市场是否对补贴更敏感,可回答“预算向三四线倾斜是否值得”;
  2. 动态效应:用事件研究法把Post拆成活动期第1~14天,看GMV提升是否逐日衰减,用于决定**补贴节奏是否该由连续发券改为脉冲式”;
  3. 长期LTV DiD:把因变量换成90天LTV,若短期GMV DiD为正而LTV DiD不显著,说明补贴只是提前消费,需搭配会员续费或积分任务锁定长期价值;
  4. 与算法团队联动:将DiD显著人群包推送至实时出价模型(RTB),把补贴系数动态写入oCPX,实现“统计显著→实时放量”闭环,国内抖音/快手广告已跑通该链路。