如何选取行为特征训练续费概率模型?

解读

面试官通过这个问题,想验证三件事:

  1. 你是否理解续费场景的业务闭环(谁、在什么节点、为什么续费);
  2. 你是否能把业务语言翻译成可量化、可获取、可解释的特征;
  3. 你是否具备数据合规与因果推断意识,避免“垃圾进、垃圾出”。
    在国内,续费模型常用于会员、订阅、SaaS、教育大班课、音视频月卡等场景,数据受《个人信息保护法》约束,敏感特征需脱敏或授权,否则直接淘汰。

知识点

  1. 特征分层框架:**“谁-什么时候-做了什么-结果怎样”**四象限
    • 静态属性:套餐类型、开通渠道、支付习惯、设备品牌、城市等级
    • 动态行为:最近30天登录天数、功能使用深度、客服触达次数、社区互动、优惠券核销
    • 时间窗口:7天、30天、90天、生命周期同期群,防止信息泄漏
    • 业务衍生:距到期天数、剩余价值、是否自动续费开关、历史退款次数
  2. 特征筛选方法:
    • **IV>0.02、PSI<0.1、缺失率<50%**先过滤
    • 再用L1正则+树模型重要性双通道,保留Top 30~50维
    • 对高度共线特征做VIF<5剔除,防止系数符号反转
  3. 因果纠偏:
    • 对“发券”等干预变量,用** uplift model 或双重机器学习**剥离混淆
    • 对“到期前强制弹窗”做断点回归,避免把运营动作当用户意愿
  4. 合规红线:
    • 不得直接使用IMEI、明文手机号、精确地理位置
    • 金融类套餐需做同态加密或联邦学习备案
  5. 模型监控:
    • 上线后按周维度监控AUC、KS、分组PSI,衰减>5%即触发重训
    • 对**“高分未续费”**人群做归因访谈,反哺特征

答案

“我会按四步选取续费概率特征:
第一步,业务拆解。把续费拆成‘到期前30天决策期’和‘到期后7天挽留期’,分别采集行为,因为两个阶段驱动力不同。
第二步,特征池构建。核心抓三类:
① 价值感——剩余会员天数/总购买天数高阶功能使用占比
② 习惯度——最近30天连续登录天数使用时段集中度
③ 流失信号——客服负面工单数优惠券囤积未用率
所有特征统一做时间滑窗归一化,防止到期越近行为越密集导致的标签泄漏。
第三步,合规与降维。剔除缺失率>50%且无法推断的字段;对支付渠道、城市等分类变量做目标编码+差分隐私;用LightGBM内置重要性+IV值双筛,保留IV>0.02且重要性Top 40的特征,再检查VIF<5确保无多重共线。
第四步,因果纠偏。对‘是否弹券’这类强干预变量,单独做uplift tree,确保模型学到的是用户自然续费意愿,而不是运营动作本身。
最终,训练集用近6个月数据,测试集用未来1个月数据,保证时间外验证AUC≥0.80、KS≥0.40方可上线,并配置周级监控PSI<0.1的自动预警。”

拓展思考

  1. 如果公司用户规模<50万,样本稀疏,可引入迁移学习:用同行业公开脱敏数据预训练,再用本企业数据微调,缓解冷启动。
  2. 高客单价年费会员,续费决策周期长,可构建T+0至T+90的多步预测链,先预测“是否进入决策期”,再预测“是否续费”,实现分层触达
  3. 自动续费开关比例>70%,模型目标可从“续费”升级为“不退订”,特征侧重点应加入扣款失败次数、支付方式余额提醒、银行短信拦截率等支付端信号。
  4. 面对iOS隐私政策收紧,IDFA获取率下降,可强化端内行为指纹(手势速度、功能路径熵)与服务端日志(接口调用序列)组合,替代部分设备级特征,保持模型稳定性。