当AB测试结果显示新模型提升了点击率但降低了用户停留时长,您会如何决策?
解读
- 指标冲突的本质:点击率(CTR)是“入口效率”,停留时长是“消费深度”,两者背后对应的是不同的商业阶段目标——短期流量变现 vs. 长期用户黏性。
- 国内互联网语境:头部平台已进入“存量竞争+强监管”阶段,DAU 增长见顶,工信部、网信办对“诱导点击”“信息茧房”持续约谈处罚,单纯 CTR 导向极易触发合规风险;同时广告主预算收紧,品牌方开始看“后链路”指标(停留、互动、转化成本)。
- 算法迭代视角:新模型大概率在召回或粗排阶段放大了“标题党”“低质爽点”内容,导致用户快速点进又快速退出,形成“高 CTR+高跳出”陷阱。
- 产品生命周期:若产品处于拉新期,可容忍一定时长损失;若处于成熟期或社区生态期,时长下降意味着内容供给结构恶化,必须优先治理。
- 数据置信度:国内日活过千万的产品,AB 实验通常按“用户 id 哈希+分层正交”跑 7 天,需校验样本量、幂值、SRM、多重检验校正;若实验组样本仅跑 2 天或周末节假日重叠,结果可能失真。
知识点
- 北极星指标(North Star Metric)拆解:OSM 模型(Objective-Strategy-Measurement)下,先确认当期 Objective 是“广告收入”还是“用户总消费时长”,再决定权重。
- 指标权衡框架:
① 货币化折算:把“时长下降”换算成“广告库存减少”带来的 eCPM 损失,与 CTR 提升带来的增量 RPM 对比;
② 用户分层边际收益:看新模型对“高价值人群(30 日 LTV 前 20%)”是否同样造成时长损失,若仅损失低活用户,可接受;
③ 生态负反馈延迟指标:监控 3 日后“主动反馈(点‘不感兴趣’、举报、卸载)”是否显著上升,用生存分析模型预测 30 日留存曲线。 - 算法可解释性诊断:
① 对召回通道做 ablation study,定位是“内容质量特征”权重被下调还是“用户短期兴趣”权重被放大;
② 利用 LIME/SHAP 查看模型对“标题敏感词”“封面低俗度”的依赖系数,若敏感词权重>0.18,即可判定为“标题党”导向。 - 合规红线:2022 年《互联网信息服务算法推荐管理规定》第 12 条要求“不得设置诱导用户沉迷或高额消费的算法模型”;若时长下降伴随举报量上升,必须下线。
- 产品迭代策略:
① 引入“消费深度”作为二级目标,采用多目标优化(MMoE/PDN),对 CTR、完播率、点赞率、时长联合建模;
② 上线“interleaving”在线分层实验,在 10% 流量内实时调和权重,减少全量风险;
③ 建立“内容质量分”实时特征库,把人工审核结果回流至训练样本,实现数据闭环。
答案
我会用“四步法”决策,并在面试现场用“金字塔”结构 90 秒内答完:
- 校验实验:先确认实验周期≥7 天、样本量≥幂值要求、SRM 检验通过;若 p 值边缘,则延长 3 天并跑“双重差分”排除节假日效应。
- 货币化折算:把时长下降换算成“广告曝光 PV 损失”,与 CTR 提升带来的增量 RPM 对比。若 ΔRPM > 0 且高价值人群 LTV 无显著下降,进入灰度;否则直接拒绝。
- 生态健康扫描:监控举报率、负反馈率、次留、卸载率。若举报率提升>20% 或 30 日留存预测下降>1.5%,立即下线并回滚。
- 多目标优化:若前两步通过,将新模型作为“弱学习器”,与旧模型做 ensemble,权重按“CTR 0.6 + 时长 0.4”动态调参;同时把“完播率”加入实时特征,两周后重启 AB。
结论:在当前国内监管与存量竞争环境下,我不会单纯因为 CTR 提升就全量上线,而是采用“小步快跑+生态红线”策略,确保业务指标与用户体验双赢。
拓展思考
- 如果老板坚持“CTR 优先”,如何说服?准备一份“监管罚单案例库”:列出 2023 年某头部短视频因低俗诱导被网信办下架频道、广告主集体追偿 1.2 亿的处罚通报,用“潜在罚款>增量收入”做风险收益对比。
- 若实验结果显示“高线城市时长下降、低线城市时长上升”,如何决策?可结合“用户价值分层”+“城市下沉战略”做差异化放量:高线城市保留旧模型,低线城市全量新模型,并通过“城市 id”作为模型特征做在线路由。
- 长期看,CTR 与时长并非零和:可探索“内容即商品”链路,把高 CTR 的“钩子”内容与高完播的“深度”内容做组合推荐,用强化学习策略(Policy Gradient)优化“序列价值”,实现“点得进来又留得下来”。