在设计一个AI推荐系统时,您会收集哪些必要数据,哪些是冗余的?

解读

面试官想验证三件事:

  1. 能否把“业务目标—用户场景—算法输入”串成一条线,而非简单罗列字段。
  2. 是否具备“数据最小够用”意识,能识别国内合规红线(个人信息保护法、数据安全法、推荐算法管理规定)。
  3. 能否用成本视角权衡“多一条字段”带来的存储、标注、合规与潜在舆情代价。

因此,回答要体现“场景驱动、合规优先、ROI 量化”的三段论,并给出可落地的筛选原则。

知识点

  1. 推荐系统三要素:User Profile、Item Profile、Interaction Context。
  2. 国内合规“双清单”制度:个人信息收集清单+算法备案特征清单,敏感个人信息需单独同意。
  3. 数据冗余判定公式:边际增益 ΔAUC × 业务价值 < 边际成本(存储+合规+延迟+标注)。
  4. 冷启动阶段允许“宽进严出”,上线后通过 SHAP、Ablation Study 做特征瘦身。
  5. 埋点五级模型:Who-When-Where-What-Why,缺失 Why 时可用因果推断补全,而非盲目加字段。

答案

我会按“场景→必要→冗余→合规”四步回答,并给出可落地的筛选原则。

一、场景先行:先锁定业务北极星指标

以短视频推荐为例,北极星指标是“单 DAU 停留时长”,拆解三级漏斗:
曝光→有效播放(>3s)→完播(>90%)→点赞/关注。
所有数据必须能解释其中至少一个环节的方差,否则不进候选池。

二、必要数据(最小够用集合)

  1. 用户侧
    a. 匿名 UserID + 设备 ID(合规已做去标识化)。
    b. 主动兴趣:点赞、关注、收藏、搜索关键词(近 30 天)。
    c. 被动兴趣:有效播放与完播的 ItemID 序列(带时间戳,用于序列建模)。
    d. 上下文:接入网络类型(Wi-Fi/5G)、时段、粗略地理位置(省级网格,精度<1 km,避免 GPS 精确定位)。
  2. Item 侧
    a. 内容指纹:作者 ID、一级/二级分类、时长、标签(NLP 抽取,人工审核白名单)。
    b. 质量信号:历史 7 日完播率、举报率、搬运识别结果。
  3. 交互上下文
    a. 曝光位次(第几刷第几位)、卡片类型(单列/双列)。
    b. 实时反馈:是否滑走、停留时长(毫秒级埋点)。

三、冗余数据(常见“坑”字段)

  1. 精确 GPS 坐标:省级网格已足够,精确定位需“单独同意”且增益<0.3% AUC,直接砍掉。
  2. 手机通讯录、短信、安装列表:除非做社交推荐且能拿出“增强式同意”记录,否则合规风险>>收益。
  3. 用户生日、性别、头像 URL:在短视频场景下,模型 Ablation 显示去掉后 AUC 下降 0.1%,但减少 15% 的个人信息采集量,综合 ROI 为负,视为冗余。
  4. 过度历史:三年前的播放记录对当前兴趣衰减权重<0.01,存储与计算成本线性增长,保留 90 天即可。
  5. 高共线性字段:如“作者粉丝数”与“作者近 30 日平均播放数”Pearson 系数 0.92,保留后者即可。

四、合规落地机制

  1. 建立“特征合规看板”,每新增字段需登记来源、用途、保存周期、删除策略,同步法务评审。
  2. 上线前做 Privacy Impact Assessment(PIA),敏感个人信息字段若无法提供显著业务增益,一票否决。
  3. 采用联邦统计或差分隐私获取群体偏好,避免原始数据出域。

拓展思考

  1. 冷启动 vs 成熟期:新用户首日可临时采集“安装列表”做 one-time 兴趣推断,24 小时后自动删除,兼顾体验与合规。
  2. 多价值目标冲突:若同时优化“停留时长”与“电商 GMV”,需引入多任务学习,此时“是否带货标签”成为必要,而纯内容场景下该字段冗余。
  3. 实时性成本:把“用户 5 分钟内最新滑走序列”加入特征,线上实验显示 AUC +0.8%,但 P99 延迟 +40 ms,需用边缘缓存或特征预聚合做折中。
  4. 数据主权出口:若未来出海中东,需把“饮酒兴趣标签”视为敏感甚至违法,提前在特征仓库做地域隔离,避免全量同步。