除了任务完成率,您会使用哪些主观评分(如SUS)来评估AI交互体验?
解读
面试官想验证三件事:
- 你是否只盯着“任务成没成”,而忽视用户“爽不爽”;
- 你是否熟悉国内可用、可落地、可对比的主观量表;
- 你是否能把主观得分翻译成产品迭代动作,而不是“考完就锁抽屉”。
因此,回答要“量表+场景+闭环”三位一体,既要展示专业深度,又要给出国内落地细节。
知识点
-
主观体验量表三大流派
a. 可用性流派:SUS、UMUX、UMUX-Lite(工信部《用户体验评测指南》2022 推荐)
b. 认知负荷流派:NASA-TLX、RSME(Raw NASA-TLX 中文版已在中国航天员中心完成信效度检验)
c. 对话/智能体流派:CUQ(Conversational User Experience Questionnaire)、CUX(百度2021开源)、Chatbot Usability Scale(清华大学改编版) -
国内数据合规与采样要点
- 量表收集属“个人信息”范畴,需《个人信息处理规则》内嵌、最小化字段、脱敏入库;
- 小程序、APP 内弹窗需遵循《工信部弹窗信息推送服务管理规定》“一键关闭+频次限制”;
- 样本量:可用性量表≥30 即可做置信区间,但 AI 产品需按算法版本分桶,每桶≥50 才能通过中央网信办“算法备案”中的用户体验说明。
-
主观与客观指标耦合方法
- 双因子模型:主观得分与任务完成率做二元逻辑回归,找到“高完成率却低满意度”的异常场景,反向驱动数据标注补充;
- Kano-CS 联动:将 SUS 分数映射到 Kano 模型,区分“魅力属性/基本属性”,决定是优化模型还是改交互文案;
- A/B 阈值:设定“SUS 提升 ≥5 分且负面舆情率下降 ≥1%”才全量发布,防止“高分低转”。
答案
我会根据产品阶段与风险等级,组合使用以下三类主观评分,并配套闭环机制:
-
基础可用性:SUS+UMUX-Lite
场景:功能 MVP 上线 48h 内,在小程序结果页弹窗,两题 UMUX-Lite 做快速体温计;7 天后邮件回收完整 SUS。
指标:SUS<68 分触发“橙色预警”,强制进入下一轮交互走查;UMUX-Lite<85% 满意则暂停拉新。 -
认知负荷:Raw NASA-TLX(中文版)
场景:复杂多轮对话、长文本生成、医疗/法律等高后果场景。
采样:每完成 1 个核心任务即触发 6 维量表(心理需求、时间需求、努力等),后台自动关联任务耗时、轮次、模型置信度。
用法:TLX>60 分且置信度<0.7 的样本,自动流入“困难样本池”,用于后续 RLHF 奖励模型微调。 -
对话体验:CUX+负面情感词聚类
场景:开放域闲聊、客服机器人。
做法:结果页嵌入 5 维 CUX(有用性、人格化、安全感、响应速度、共情度),每维 5 分李克特;同时把用户输入中的“答非所问”“重复”关键词实时聚类。
闭环:当 CUX<3.5 且负面词占比>8%,自动回捞对应 session,标注团队 24h 内完成“bad case”标注,下周版本强制修复。
落地细节
- 量表收集与算法版本号、用户 ID 哈希、场景标签四段式落库,确保后续可回溯;
- 所有主观得分每季度输出《AI用户体验白皮书》,作为算法备案与上市审计的核心材料;
- 主观指标权重占 OKR 30%,与任务完成率、算力成本并列,防止技术团队“只追准召,不追感受”。
拓展思考
- 主观量表≠问卷堆砌,关键是“可行动”:每增加一道题,必须提前写好“如果得分低于 X,谁、在多久、用什么资源、做哪件具体的事”。
- 在生成式 AI 时代,需引入“即时情绪曲线”——把用户输入的标点符号密度、修改次数、撤回行为做成实时特征,与事后量表做皮尔逊校验,逐步用行为数据替代部分问卷,降低对用户打扰。
- 国内监管趋向“算法可解释+用户可投诉”,未来主观评分可能直接接入 12315 平台接口,产品侧需预留“一键提交投诉+自动附带量表得分”功能,实现体验监测与合规风控同源。