如何构建分群GMV对比的“双重差分”模型?
解读
面试官问“分群GMV对比的双重差分模型”,核心想验证三件事:
- 你是否理解中国电商/本地生活业务常用的分群维度(如渠道来源、会员等级、城市级别、补贴敏感度);
- 能否把“实验组 vs 对照组”与“活动前 vs 活动后”这两个差分维度同时纳入模型,剥离季节因素、自然增长、外部流量波动等混杂变量;
- 是否能把统计结果翻译成运营动作:哪些人群值得追加预算、哪些人群该降补贴、如何优化券包门槛。
回答时必须给出可落地的建模步骤、变量清单、显著性判断标准,并指出国内数据埋点常见坑点,否则会被认为“只懂理论,不会干活”。
知识点
- 双重差分(DiD)核心假设:平行趋势——实验组与对照组在活动前GMV趋势一致;
- 国内常用分群标签:
- 渠道分群:抖音直播间、淘宝站内、微信小程序、线下扫码;
- 价值分群:RFM+LTV 分层,如高价值衰退期用户、低价值潜力用户;
- 补贴敏感度分群:基于历史核销率、券面额弹性系数;
- GMV口径:国内普遍采用实付+券后GMV,需剔除退款、刷单、风控订单;
- 显著性判断:实验样本量<10万时,聚类稳健标准误到用户维度,避免伪显著;
- 政策/平台大促干扰:需加入平台级大促虚拟变量(如618、双11),否则DiD系数会被高估。
答案
步骤一:定义实验
- 选定实验组——“高补贴敏感度且近30天GMV下滑≥20%”的用户群;
- 用**倾向得分匹配(PSM)**在同期未下滑人群里1:1找对照组,匹配变量:近30天GMV、品类偏好、城市等级、券核销率;
- 实验窗口:活动前14天+活动中14天+活动后14天,确保覆盖补贴衰减期。
步骤二:构建模型
建立面板回归:
GMV(i,t) = α + β1·Treat(i) + β2·Post(t) + β3·Treat(i)×Post(t) + γX(i,t) + ε(i,t)
其中:
- Treat(i)=1 为实验组;
- Post(t)=1 为活动中及活动后;
- β3即为双重差分系数,衡量“补贴策略”带来的净GMV提升;
- X(i,t) 加入日级大促虚拟变量、节假日、天气、疫情管控等级,控制外部冲击。
步骤三:结果判读与运营翻译
- 若β3显著为正且ROI=β3×净GMV/补贴成本>1.2(国内头部平台及格线),则对该分群扩大补贴预算30%;
- 若β3显著但ROI<1,则降低券面额或提升门槛,并做二次DiD验证;
- 若β3不显著,则放弃该分群补贴,转向内容或权益运营。
步骤四:国内数据坑点自检
- 用用户粒度的聚类标准误,避免“订单数>>用户数”导致的t值虚高;
- 剔除企业购、黄牛设备号(近30天下单设备数>5或收货地址含“公司”“仓库”关键词);
- 检查平台券叠加规则变化,防止“券力度突变”被误判为实验效应。
拓展思考
- 三重差分(DDD):在DiD基础上再分“城市等级”维度,验证下沉市场是否对补贴更敏感,可回答“预算向三四线倾斜是否值得”;
- 动态效应:用事件研究法把Post拆成活动期第1~14天,看GMV提升是否逐日衰减,用于决定**补贴节奏是否该由连续发券改为脉冲式”;
- 长期LTV DiD:把因变量换成90天LTV,若短期GMV DiD为正而LTV DiD不显著,说明补贴只是提前消费,需搭配会员续费或积分任务锁定长期价值;
- 与算法团队联动:将DiD显著人群包推送至实时出价模型(RTB),把补贴系数动态写入oCPX,实现“统计显著→实时放量”闭环,国内抖音/快手广告已跑通该链路。