除了短期业务指标,您会关注哪些长期健康度指标(如用户留存、模型稳定性)?

解读

面试官想验证三件事:

  1. 你是否把“上线”当成终点,还是把“可持续”当成起点;
  2. 能否把抽象的“健康度”拆成可量化、可监控、可下钻的指标;
  3. 是否理解国内特有的合规、算力、数据漂移、用户分层等长期风险。
    回答必须体现“AI 产品”而非“互联网产品”视角:指标要与模型生命周期、数据闭环、算力成本、政策红线强耦合,且给出阈值定义、报警策略、责任角色,否则会被认为“只背了指标体系”。

知识点

  1. 模型层健康度

    • PSI(Population Stability Index)≤0.1 为绿色,>0.25 必须回滚;
    • AUC-ROC 周环比下跌 ≥3% 触发自动灰度回退;
    • 预测延迟 P99 ≤200 ms,GPU 利用率周均值 ≤75%,防止算力债;
    • 特征缺失率、特征漂移 Z-Score>3 即告警。
  2. 数据层健康度

    • 标注一致性 κ 值 ≥0.85;
    • 回流数据有效占比(去重、去噪后)≥90%;
    • 用户授权撤销率月环比 <0.5%,满足《个人信息保护法》第15 条。
  3. 用户层健康度

    • 30 日留存绝对值不低于行业 75 分位,且实验组与对照组差异 ≥+2% 才认可模型正向;
    • 负向反馈率(举报/投诉/差评)≤0.3%,并拆按敏感人群(未成年人、银发用户)单独看;
    • 算法可解释性投诉工单 24h 内闭环率 ≥95%,避免监管约谈。
  4. 商业与合规层健康度

    • 模型收益覆盖算力成本,边际毛利率 ≥15%;
    • 算法备案变更记录 100% 同步至网信办备案系统;
    • 数据出境评估报告每半年更新一次,留档 3 年。
  5. 组织层健康度

    • 数据-模型-产品三线 KPI 对齐度(OKR 交集率)≥80%,防止“模型精排提升、产品负向”的局部最优;
    • 重大事故复盘 5 个工作日内完成,改进项关闭率 100%。

答案

“我会把长期健康度拆成四张红绿灯看板,分别对应模型、数据、用户、商业合规,每类只留 2–3 个北极星指标,确保一线 RD、运营、法务都能秒懂。

模型侧,我最看 PSI 和 AUC 周跌幅:PSI>0.1 就自动触发‘影子模型’对比,连续两周 AUC 下跌 3% 直接灰度回滚,避免‘沉默漂移’。同时把 GPU 利用率控制在 75% 以下,给突发流量留 25% 缓冲,防止算力债拖垮 Q4 预算。

数据侧,核心盯‘回流数据有效占比’和‘标注一致性 κ 值’。国内厂商常忽略回流清洗,导致 30% 脏数据拖垮模型,我要求有效占比≥90%,并把 κ<0.85 的标注包自动打回二次标注,否则不进训练集。

用户侧,30 日留存必须跑赢行业 75 分位且实验组提升≥2% 才算模型正向;同时负向反馈率按人群下钻,未成年人投诉>0.1% 立即下线重审,这是去年《未成年人网络保护条例》的硬性要求。

商业合规侧,边际毛利率≥15% 才允许扩大灰度;所有模型版本在上线前 48h 把《算法安全自评报告》同步到法务,备案号变更 0 延迟,防止网信办抽检罚款。

这四类指标全部写进 PRD 的‘长期健康’章节,和短期 ROI 一起进入周报,由我来背指标,研发、运营、法务三方共担,确保模型跑得久、跑得稳、跑得合法。”

拓展思考

  1. 如何把“长期健康”写进 OKR:
    O:打造可持续 3 年的推荐模型体系;KR1:PSI≤0.1 连续 4 个季度;KR2:30 日留存提升 5% 且负向投诉下降 30%;KR3:算力成本占收入比下降 8%。用“季度”而非“月”考核,防止团队刷短期指标。

  2. 国内监管升级后的新增指标:
    2024 年起生成式 AI 需披露“训练数据规模+来源”,可提前设计“数据血缘可视化”看板,一键导出 CSV 供监管抽查,把合规成本前置到产品流程。

  3. 组织保障:
    建议设“模型稳定性运营”岗位,双线汇报给产品和技术,KPI 就是 PSI、AUC 跌幅、投诉率,避免技术只盯 QPS、产品只盯 GMV 的割裂。