如何评估Mapping准确率与召回率?

解读

在国内互联网公司的用户运营面试里,面试官问“Mapping准确率与召回率”并不是想听你背机器学习公式,而是快速判断你是否能把“用户身份识别”这一底层能力,转化为可衡量、可落地的运营指标
Mapping(一般指设备-ID-账号-手机号-微信UnionID等多端身份归一)是后续分层运营、精准触达、补贴风控的前提。如果Mapping错了,优惠券会重复发放、Push会骚扰已卸载用户、ROI计算会失真,所以必须像盯GMV一样盯准召与准。

知识点

  1. 准确率(Precision)=正确Mapping的ID对 ÷ 所有算法输出的ID对
    反映“我认定的同一用户,到底有多少真的是同一个人”,直接决定补贴浪费率

  2. 召回率(Recall)=正确Mapping的ID对 ÷ 真实存在的同一用户ID对
    反映“真实同一个人,我到底找到了多少”,决定后续可运营人群池大小

  3. F1值=2·P·R/(P+R),用于在P、R之间做Trade-off;日常运营更关注“分段F1”,例如高价值段F1必须≥0.92,低价值段可降到0.75以节省算力。

  4. Ground Truth获取(国内可行方案)

    • 小流量“短信验证码登录”校准:随机抽取5%新登录用户,强制短信验证,将手机号作为强唯一标识,沉淀为金标准。
    • 微信生态小程序+公众号打通:利用微信返回的UnionID作为交叉验证,覆盖90%+中国移动互联网用户
    • 线下扫码领券实验:线下活动要求用户扫码后授权手机号,回传与线上设备做匹配,可一次性沉淀上万对真实Mapping
  5. 分层评估而不是看整体
    按**“是否高价值、是否新设备、是否iOS”三维拆表,高价值人群准确率必须≥98%,否则一个错配可能损失百元补贴;召回率可以阶梯目标,例如双11大促前把召回率从85%提到90%,可直接带来5%可触达人群增量**。

  6. 线上A/B校验方法
    把Mapping结果同步到Push平台,对“疑似同一人”实验组做去重,对照组不做去重,观察24小时卸载率与投诉率。若实验组卸载率下降≥0.3pp且无明显GMV损失,即可证明准确率提升有效

  7. 常见误区

    • 只看“总量F1”而忽视高价值段Precision
    • 用“账号登录成功”当Ground Truth,忽略游客态设备
    • 为保召回率盲目合并设备,导致黑产集中薅券

答案

“我会把Mapping评估拆成三步:
第一步,建立Ground Truth。选取5%新登录用户做短信验证,把手机号当强ID,同时用微信UnionID做交叉验证,沉淀10万级金标准对
第二步,分层计算Precision与Recall。重点看高价值人群(近30天GMV≥500元)的Precision必须≥98%,Recall目标90%;中低价值人群Precision可降到95%,Recall每提升1%就能多触达80万用户;
第三步,线上A/B验证。把最新Mapping结果同步到Push系统,对实验组做同用户去重,核心指标是卸载率下降≥0.3pp、优惠券重复领取率下降≥15%,同时GMV不掉,则证明本次Mapping迭代有效。
通过这套闭环,我们曾在618大促前把高价值人群Mapping准确率从96.2%提到98.5%,直接减少补贴浪费1200万元,并把可召回人群池扩大7%。”

拓展思考

  1. Mapping与隐私合规的平衡:2024年《个人信息保护法》执法趋严,短信验证方式需获得用户“单独同意”,可考虑把校准包缩小到1%并给用户“抽奖”激励,既保样本量又降低合规风险
  2. 实时性要求:大促期间新设备暴增,Mapping模型必须T+1小时内更新,否则首单补贴就会错发。可引入Flink实时图计算,把“设备-账号”边权重按共现时间衰减,实现分钟级召回率提升
  3. 黑产对抗:黑产会用“一键改机”批量制造虚假设备指纹,需在Precision计算前加入“风控黑名单”过滤,否则准确率会被刷高但真实用户并未受益。
  4. 与CDP结合:Mapping结果写入CDP后,可用RFM+标签组合做二次验证,若同一ID下出现“北京+上海”双城高活跃,则触发人工复核,把Precision再提升0.5pp