在测试一个新推荐算法时,您会选取哪些核心指标作为主效指标和次效指标?

解读

面试官想通过这道题验证三件事:

  1. 你是否能把“算法指标”翻译成“业务指标”,并区分对业务生死攸关的北极星指标与辅助验证指标;
  2. 你是否熟悉国内主流推荐场景(内容、电商、本地生活、广告)的评估体系,知道不同场景对“好推荐”的定义差异;
  3. 你是否具备成本意识,能在指标里体现对算力、标注、合规、用户体验的综合权衡。

回答时先给“主效指标”一个唯一且可落地的北极星,再给出3~4个“次效指标”并说明它们如何解释主效指标的异常或补充盲区,最后补充“护栏指标”体现合规与体验,形成完整闭环。

知识点

  1. 主效指标(North Star Metric):必须同时满足可感知用户价值、可映射业务收益、可统计显著。国内推荐场景最常用的是“每会话人均消费内容数”或“有效GMV”,取决于商业模式。
  2. 次效指标:拆解主效指标的可解释维度,包括相关性、多样性、新鲜度、覆盖率、转化深度、负向反馈率等;需说明如何与主效指标做“跷跷板”监控。
  3. 护栏指标(Guardrail):必须同时看内容安全、用户隐私、合规风险、算力成本,国内监管要求“显著标识算法推荐服务”,需把“投诉率”“下架率”“灰产曝光率”纳入观察。
  4. 统计方法:线上A/B必须采用“以用户为随机单元、以会话为统计单元”的层域实验框架,避免“同一用户跨实验层”的偏差;显著性检验用Welch’s t-test,兼顾方差异质性。
  5. 成本视角:训练成本、推理QPS、召回阶段内存占用需提前给出预算上限,并在次效指标里增加“单位算力收益”作为约束。

答案

主效指标:
“目标会话人均有效GMV”——对电商场景;若内容场景则改为“目标会话人均完整消费内容数”。选取理由:直接对应公司季度OKR,可感知、可拆解、可显著。

次效指标(4个,按解释优先级排序):

  1. 转化率(有效行为UV / 曝光UV):解释主效指标提升是否来自“更多用户转化”还是“老客客单价提升”。
  2. 平均曝光多样性(用户会话内类目熵):防止“转化提升但信息茧房加重”导致次月留存下降。
  3. 新Item冷启动覆盖率(首次曝光Item数 / 候选Item数):验证算法是否依赖头部物料,避免库存失衡。
  4. 负向反馈率(点“不感兴趣”+举报+负评 / 曝光):监控用户体验恶化,提前预警舆情。

护栏指标(必须同步观测,不追求提升,只设红线):

  1. 内容安全违规率 ≤ 0.15%(含黄反政、虚假宣传、灰产引流);
  2. 用户隐私投诉率 ≤ 0.01%;
  3. 单QPS推理耗时 P99 ≤ 120 ms,对应GPU预算不超上周期105%;
  4. 算法推荐服务标识缺失率 = 0,满足《互联网信息服务算法推荐管理规定》第16条。

实验设计:
线上跑14天、覆盖周末与电商大促周期,随机单元为用户ID,实验流量20%,采用层域隔离;显著性阈值α=0.05,power=0.8,最小检测效应MDE按上周期GMV标准差12%计算。若主效指标提升≥+3%且护栏指标全部达标,可进入灰度50%阶段;若主效提升≥+5%但多样性下降>10%,则启动“多样性加权重排”二次迭代,避免牺牲长期留存。

拓展思考

  1. 如果公司当前阶段“盈利”优先于“规模”,主效指标可换成“毛利率贡献”而非GMV,但需在次效指标里加入“退货率”与“补贴率”,防止高补贴带来的虚假提升。
  2. 对于内容社区,若平台正在冲击DAU,主效指标可设为“次留”,但需用“消费深度”与“关注转化率”做双次效,避免推荐低质爆款带来的次留虚高。
  3. 当算法引入大模型生成内容(AIGC)时,护栏指标必须新增“AI生成内容显著标识准确率”与“生成内容事实性抽检合格率”,否则可能触碰《深度合成规定》罚款红线。
  4. 若实验周期覆盖618、双11等大促,需采用“时间分层CUPED”技术削减大促天然GMV波动带来的方差膨胀,确保检测灵敏度。