如何评估特征稳定性(PSI)?

解读

在国内互联网企业的用户运营面试中,面试官问 PSI 并不是想听“套公式”,而是考察三点:

  1. 你是否能把“用户分层”与“特征监控”闭环到运营动作;
  2. 你是否理解 PSI 的业务阈值统计显著性双重标准;
  3. 你能否在小时级天级实时场景下,用 PSI 提前发现“活动刷量”“渠道掺水”等中国特有风险。
    因此,回答必须跳出“两段分布一比”这种教科书套路,把 PSI 嵌入运营生命周期。

知识点

  1. PSI 本质:衡量两个时间点(或两个群体)同一特征的分布漂移,公式 Σ[(实际占比-预期占比)×ln(实际占比/预期占比)]。
  2. 国标化分箱:在中国数据环境下,必须采用**等人数分箱(quantile)**而非等宽分箱,避免头部 5% 用户把区间撑变形。
  3. 业务阈值
    PSI<0.1 稳定;0.1–0.25 预警;>0.25 拒绝,该阈值在阿里、美团、京东的金融与营销场景已成内部规范。
  4. 分层监控:对新客/老客iOS/安卓一二三线城市分别计算 PSI,防止“整体平稳、局部爆炸”。
  5. 实时化:用 Flink 计算小时级 PSI,配合钉钉群机器人推送,超过 0.15 即触发运营熔断——暂停发券或下架活动,这是 2023 年抖音电商大促的标准动作
  6. 与运营指标联动:PSI 异常后,必须回追次日留存率ROI 是否同步下跌,否则可能是良性漂移(如节日高消费用户自然增多),避免误杀。

答案

“我在上一家公司负责 618 大促的新客红包策略。为了监控模型特征稳定性,我搭建了T+0 的 PSI 看板
第一步,离线基准:取 5 月 1–7 日无活动干扰的 200 万新客作为 Expected,按等人数 10 箱保存分位点。
第二步,实时对比:用 Flink 每小时捞取最新 50 万曝光用户,按同一分位点分箱,计算 PSI。
第三步,阈值决策:PSI>0.15 自动@我,30 分钟内拉通数据、算法、渠道三方排查;若 PSI>0.25,直接暂停该渠道投放,并触发用户质量复审
618 当天,我们在 6 月 16 日 14:00 发现“近 7 日下单次数”特征 PSI 飙升至 0.32,细拆发现某信息流渠道刷量军团混入,当日 ROI 从 1.8 跌到 0.9;及时停投后,整体新客 ROI 回升至 1.6,多保住 900 万毛利
事后复盘,我把该特征加入渠道评级黑名单,并推动算法同学用PSI 加权做在线模型修正,确保后续大促不再踩坑。”

拓展思考

  1. 多特征联合 PSI:单特征稳定不代表整体稳定,可用平均 PSI主成分 PSI 做降维监控。
  2. 与因果推断结合:PSI 异常后,用双重差分法验证是否真由渠道刷量导致,而非节日效应,避免过度熔断损失真实用户。
  3. 隐私合规:2024 年《个人信息出境标准合同办法》生效,若特征含设备指纹等敏感字段,需先做联邦分箱再算 PSI,否则可能触碰数据出境红线