请设计一套完整的AI产品用户体验评估指标体系。

解读

  1. 面试官想验证候选人能否把“算法指标”转译为“可感知的用户价值”,并兼顾商业价值、技术可行性与合规风险。
  2. 题目隐含三层要求:
    • 体系必须闭环:数据—模型—产品—用户—数据。
    • 指标必须分层:战略层、业务层、体验层、模型层、合规层。
    • 指标必须可落地:可采集、可量化、可A/B、可下钻。
  3. 国内面试场景下,需体现对《个人信息保护法》《算法推荐管理规定》等合规红线、对中文用户习惯(如小程序、短视频、客服机器人)的洞察,以及对“算力成本”的敏感度。

知识点

  1. AI产品体验≠互联网体验:需把“模型不确定性”纳入体验设计。
  2. 分层评估框架:HEART、GSM、PTECH等模型需与“算法置信度”“数据偏差”耦合。
  3. 中文场景特有指标:语义歧义率、方言支持度、敏感词误杀/漏杀率。
  4. 合规指标:算法备案、可解释性、用户删除权响应时效。
  5. 算力成本指标:单次推理耗时、QPS峰值成本、端侧内存峰值。

答案

面向国内落地的AI产品用户体验评估指标体系,采用“5×3×2”结构:5层维度、每层3个核心指标、每个指标2条采集手段,形成闭环。

一、战略层(北极星)

  1. AI功能留存率:首次使用AI能力的用户30日后仍活跃比例,采集手段①埋点②同期群。
  2. AI付费转化率:AI功能带来的新增付费用户数/总活跃,采集①订单关联②营销码。
  3. 算法ROI:AI带来的增量利润/模型全生命周期成本,采集①财务分摊②云资源账单。

二、业务层(场景价值)

  1. 任务完成率:用户带着明确需求进入AI模块,最终完成核心任务比例,采集①任务漏斗②客服日志标注。
  2. 平均交互轮数:完成同一任务所需对话/点击轮数,采集①埋点②语音转写。
  3. 场景弃用率:首次进入后7日内未再次使用该AI场景的用户占比,采集①埋点②问卷召回。

三、体验层(用户感知)

  1. 等待耐受指数:用户等待结果>2秒即退出率,采集①前端计时②录屏分析。
  2. 结果可信度评分:用户对AI输出点击“有用”占比,采集①内置反馈②短信NPS抽样。
  3. 错误恢复率:AI给出错误结果后,用户通过“换一句/纠错入口”成功完成任务比例,采集①埋点②可用性测试。

四、模型层(技术可信)

  1. Top1准确率:用户真实意图与模型首位输出匹配率,采集①人工标注②主动学习回采。
  2. 置信度校准度:模型输出置信度80%的样本中实际正确率应接近80%,采集①置信分桶②可靠性曲线。
  3. 偏差指数:男女/地域/年龄子群Top1准确率差异最大值,采集①分层统计②合规第三方审计。

五、合规与风险层(底线)

  1. 敏感误杀率:正常内容被误判拦截比例,采集①申诉工单②人工复核。
  2. 可解释性满足度:需解释场景下用户点击“查看原因”后30秒内停留比例,采集①埋点②眼动仪抽样。
  3. 数据删除时效:用户发起删除到物理删除完成<15日占比,采集①日志②合规抽查。

落地机制

  1. 指标Owner制:每个指标对应“产品+算法+运营”三方Owner,OKR同责。
  2. 双周数据评审:模型层指标波动>2%即触发回滚或灰度。
  3. 用户-模型联合看板:同一维度支持“业务指标—模型指标”一键下钻,定位是数据问题、模型问题还是交互问题。
  4. 合规一票否决:合规层任一指标触碰红线,版本禁止全量。

拓展思考

  1. 多模态扩展:当产品从文本升级到语音、视觉时,需新增“唇形同步延迟”“图像畸变率”等模态特有指标,并重新校准权重。
  2. 生成式AI特殊指标:事实一致性、幻觉率、版权相似度,需引入“检索增强验证”与“区块链存证”手段。
  3. 端边云协同:端侧低功耗场景需把“单次推理耗电量”纳入体验层,防止“准确率提升却导致手机发烫”的隐性负体验。
  4. 行业监管演进:关注即将出台的《生成式AI服务管理暂行办法》细则,提前把“训练数据来源合法性声明”设为合规前置指标,避免上线即下架。