如何评估算法推荐vs.运营人工排期的GMV差异?
解读
面试官想知道三件事:
- 你是否理解“算法推荐”与“人工排期”在流量分发逻辑、资源位效率、用户分层触达上的本质区别;
- 你是否能把 GMV 差异拆成可量化、可复盘、可迭代的指标闭环,而不是只报一个涨跌数字;
- 你是否具备中国本土电商/内容平台常见的数据工具使用经验(如阿里系、京东系、字节系的数据银行、达摩盘、巨量云图等),并能在合规与隐私前提下做因果推断。
一句话:不是比大小,而是讲清楚“为什么差、差多少、下一步怎么调”。
知识点
- GMV 拆解公式:GMV = 曝光 UV × 点击转化率 × 客单价 × 购买转化率;任何差异必须回到这 4 个环节找变量。
- 因果推断方法:
- AB 实验:同一人群、同一时间切片、唯一变量是“算法推荐/人工排期”;必须跑满** 7 天 + 两个完整购买周期**以抵消周末与品类日波动。
- PSM(倾向得分匹配):当无法随机分流时,用历史数据模拟“同质地”人群,减少选择偏差。
- 数据口径对齐:
- 曝光口径必须剔除**“空曝”(用户未滑到)与“技术暗曝”**(接口返回但前端未渲染);
- GMV 归属期统一用点击日期 + 15 天支付归因,避免“算法当日冲高、人工次日收单”造成的时间错位。
- 显著性阈值:国内业务日常采用** p 值 < 0.05** 且** GMV 提升 ≥ 3%** 才认定“可上线”,同时要求** 95% 置信区间下限 > 0**。
- 长周期价值:用** CLV 回检**防止“算法过度补贴低质流量”;90 天复购率下降超过 1.5 pct 即触发降权。
- 合规红线:2021 年《个人信息保护法》后,“用户 ID 明文对照表”不可出数仓;所有下钻必须脱敏到统计粒度 ≥ 50 人。
答案
回答采用“五步法”,总时长控制在 3 分钟,示范如下:
“我会用五步法评估差异:
第一步,统一口径。把两套策略绑定到同一批资源位 + 同一人群包(例如首页猜你喜欢第 3 坑),曝光、点击、支付都走集团埋点 2.0 协议,剔除空曝,归因窗口 15 天。
第二步,随机分流 AB。用达摩盘人群随机 50/50 分流,跑满 7 天 × 24 h,覆盖两个品类日,样本量用幂次分析确保检测 3% GMV 提升的检验力 ≥ 80%。
第三步,核心指标对比。先看** GMV 绝对值差异**,再看分解指标:曝光利用率、点击转化率、客单价、复购率;同步监控负向指标:退货率、投诉率、UV 价值波动。
第四步,显著性与效应量。用** Welch’s t-test** 处理方差不齐,要求 p < 0.05;同步计算** Cohen’s d**,效应量 ≥ 0.2 才算“业务可感知”。
第五步,长周期校验。实验结束后 30 天,用** CLV 模型回检两组人群,若算法组 90 天复购率降幅 > 1.5 pct,即使短期 GMV 高也会回滚策略**并调低补贴权重。
以上结果我会写成一页 A4 结论:差异多少、置信区间、下一步迭代节奏,供算法与运营双周评审会拍板。”
拓展思考
- “算法 + 人工”混合策略:把人工排期的高毛利爆款作为冷启动种子池,算法实时学习点击反馈,再用** UCB 强化学习动态放大,已实现淘宝首页“双轮驱动”**模式,GMV 额外提升 4.7%。
- 场景差异:在直播频道由于库存深度低,算法推荐易造成**“超卖”,此时应引入库存信号作为硬约束**,把 GMV 让位于履约率;而在短视频带货场景,算法对** 3 秒完播率极度敏感,需把前端内容指标**提前纳入损失函数。
- 组织协同:差异评估完成后,用**“运营标签反哺算法”机制——运营把高潜新品人工标记为“趋势标签”,算法侧加权 1.3 倍做探索,既保留运营嗅觉,又放大算法规模效应,实现双向 KPI 绑定**(运营对毛利负责,算法对 UV 价值负责)。