除了传统NPS,您会使用哪些定性或定量指标来衡量AI功能的用户体验?
解读
面试官想验证三件事:
- 你是否理解“AI功能”带来的独特不确定性(黑箱、概率输出、幻觉、延迟、失败成本)。
- 你是否能把算法指标(Precision、Recall、F1、AUC、BLEU、CIDEr、EER等)翻译成用户可感知的体验指标。
- 你是否具备“闭环”思维:指标必须能反哺数据、模型与产品迭代,而不是只做“事后报表”。
因此,回答要体现“算法-体验-商业”三角闭环,并给出可落地的采集方案与阈值设定方法。
知识点
-
AI体验指标三层模型
① 系统层:延迟、吞吐、可用性、并发崩溃率。
② 模型层:置信度分布、拒识率、幻觉率、校准度、漂移指数。
③ 用户层:任务完成率、信任度、认知负荷、情绪曲线、负向反馈率。 -
中国合规与舆情红线
《深度合成规定》《算法推荐管理规定》要求显著标识+一键关闭+投诉通道;任何“阴阳”或“暗度”埋点都可能被监管认定为“诱导沉迷”。指标设计必须可公开披露。 -
低成本高信度采集手段
服务端日志+客户端埋点+会话回放+微信/企微社群众测+电话深访;用“分层抽样+双重验证”替代全量标注,降低成本。 -
阈值设定方法
① 基线法:对比“无AI版本”或“规则版本”。
② 容忍度法:用GOMS或KLM模型测算多1秒延迟带来的任务失败率上升斜率,找到拐点。
③ 财务法:把1%的误报折算成客服人力成本,反向推导可接受区间。
答案
我会把指标拆成“4横3纵”矩阵,横向按用户旅程(首次触达→任务完成→长期留存),纵向按数据类型(定量行为、定量主观、定性),并给出每个指标的定义、采集方式、触发阈值与回传闭环。
-
任务完成率(Task Success Rate, TSR)
定义:用户发出AI请求后,在预设路径内达到目标状态的比率。
采集:在服务端埋点“intent→final_state”,用会话ID串联。
阈值:以“规则方案”TSR=68%为基线,AI版本≥80%才全量;每下降2%自动回滚并触发数据回溯。 -
首次有效响应延迟(Time to First Effective Token, TFET)
定义:从用户点击“发送”到首个有效token返回的时间;过滤掉心跳与空帧。
采集:客户端NTP对时,网络层抓包。
阈值:P95≤1200 ms;每超100 ms,转化率下降0.7%,用此系数在财务模型里算出可接受成本。 -
置信度-满意度校准指数(CSI)
定义:把模型输出的top-1置信度与用户五星评分做Logistic回归,求平均预测误差|confidence−rating/5|。
采集:在结果页弹窗“这条答案有用吗?”采样率5%,避免疲劳。
阈值:CSI>0.25视为“模型过于自信”,自动下调置信度展示阈值并回炉微调。 -
幻觉率(Hallucination Rate)
定义:随机抽1000条AI回复,用“事实核查+人工标注”判断不可验证或矛盾的比例。
采集:每日跑批,先用规则库(时间、人物、数值)初筛,再众包给3人标注,多数表决。
阈值:>2%即触发“检索增强”策略开关,把RAG召回top5从3篇提到5篇。 -
负向反馈密度(Negative Feedback Density, NFD)
定义:每1000次会话中,用户点击“结果有误/举报/踩”的次数。
采集:客户端原生按钮,必须“一键投诉”到工信部备案后台。
阈值:NFD>0.4‰即启动“橙色预警”,产品、法务、算法三方24小时内给出解释与修复公告。 -
信任跌落指数(Trust Drop Score)
定义:同一用户连续3次收到低置信度(<0.6)或拒识后,7日内主动使用率下降幅度。
采集:用户粒度的长周期面板数据,用Causal Impact做双重差分。
阈值:下降>15%视为“信任跌落”,触发“暖文案+人工接管”策略,并推送“反馈有奖”挽回。 -
认知负荷评分(NASA-TLX精简版)
定义:任务结束后让用户在1~7级量表打分(脑力需求、时间压力、挫败感)。
采集:微信社群众测,每版灰度50人;红包奖励10元。
阈值:平均分>4.5即判定“交互过载”,需简化流程或增加“逐步披露”模式。 -
情绪曲线(Emotion Curve)
定义:用语音或文本情绪模型,检测会话中“愤怒/失望”占比,并绘制时间戳曲线。
采集:用户授权后,对语音转文本跑情绪模型;未授权则跳过。
阈值:曲线出现“愤怒峰值”且随后30秒内用户弃用,标记为“情绪 churn”,自动创建工单给客服回呼。
以上指标通过“实时看板+周级复盘+季度战略review”三级节奏落地;任何指标异常都会回写到“数据-模型-产品”闭环:日志→标注→微调→A/B→灰度→全量,确保体验与业务双赢。
拓展思考
-
多模态场景下,如何统一“视觉幻觉”与“文本幻觉”的标注标准?
建议:用“跨模态事实一致性”作为顶层原则,把图像OCR文本与语音ASR文本对齐,再跑统一的事实核查模型;标注员只需判断“图文是否矛盾”,降低认知成本。 -
当AI功能嵌入高客单价B2B交易环节(如合同生成),用户样本极少,如何保信度?
建议:采用“贝叶斯小样本更新”+“专家德尔菲法”:先用行业专家给出先验分布,每新增1条真实负样本就更新后验,把“幻觉率”置信区间控制在±3%以内,避免盲目迭代。 -
如果监管要求“可解释”,指标如何与解释度挂钩?
建议:把“解释满意度”独立成指标,用户可对“AI理由”打分;同时用SHAP值压缩到3句话,若解释满意度<60%且投诉率上升,则暂停黑箱大模型,切换至可解释规则树,优先保合规。