如何选取种子用户规模以保证扩展精度?
解读
面试官真正想验证的是:你能否在“最小可验证成本”与“统计显著性”之间找到平衡,既不让公司烧钱,也不让后续大规模投放踩坑。中国移动互联网赛道迭代极快,种子期窗口通常只有2~4周,因此“规模”不是拍脑袋,而是用数据反推、用场景校准、用动态迭代验证。
知识点
- 分层抽样与同质性校验:先按核心行为维度(如30日下单频次、内容互动深度)把目标人群拆成3~5层,每层内部CV<0.3方可视为同质,否则继续拆。
- 最小样本量公式(比例型指标):
n = [Z²×p(1-p)] / E²
其中Z取1.96(95%置信度),E取5%绝对误差(国内A/B平台通用阈值),p取预估转化率。若p未知,按保守值0.5计算,可得最小样本384人;再按10%无应答率放大,种子池≥426人。 - 扩展系数:中国主流渠道D7留存衰减曲线呈“40%-20%-10%”漏斗,因此种子规模需乘2.5倍扩展系数,确保最终有效样本仍高于426。
- 动态监控:上线后每12小时巡检置信区间半宽,若连续2个时段半宽>8%,立即追加20%样本,直至收敛。
- 合规红线:如含14岁以下用户,需按《个人信息保护法》获得监护人单独同意,样本量需额外预留15%法务流失。
答案
“我会用三步法锁定种子规模:
第一步,用行为指标拆层,确保层内方差小于0.3;
第二步,按最小样本公式算得426人,再乘2.5倍扩展系数,得到约1100人的种子池;
第三步,上线后每12小时监控置信区间,半宽一旦超标就自动追加20%样本。
这样既把统计误差压到5%以内,又把预算浪费降到最低,单用户成本可控制在日常买量价的1.2倍以内,过去在K12直播课项目里用同样方法,把后续大规模投放的转化率预测误差从±18%降到±4%,两周内帮公司节省投放预算120万元。”
拓展思考
- 若产品为多角色平台(如滴滴司机+乘客),需分别建立种子池,交叉网络效应会让最小样本量再上浮30%。
- 在微信私域场景,由于好友裂变会带来非独立样本,需用VIF(方差膨胀因子)>2.5做修正,否则置信度会被虚高。
- 未来想进一步压缩规模,可引入贝叶斯序贯检验,把先验数据与实时数据融合,样本量最多可再降25%,但对数据清洗要求更高,**缺失率必须<1%**才能收敛。