如何通过眼动追踪或语音分析来研究用户与AI的互动模式?
解读
面试官想验证三件事:
- 你是否把“用户研究”当成AI产品闭环的起点,而非上线后的补测;
- 能否把生理信号(眼动、语音)翻译成对算法、交互、商业有价值的可落地指标;
- 是否熟悉国内数据合规红线,知道哪些数据能采、哪些必须脱敏、哪些场景需要双重授权。
回答时要体现“场景-指标-算法-合规”四位一体的思考,并给出可复用的研究框架,而不是只罗列工具。
知识点
- 眼动核心指标:首次注视时间(TTFF)、注视热点图、回视路径、瞳孔直径变化(认知负荷代理)。
- 语音核心指标:语速、停顿结构、情感极性(Valence)、唤醒度(Arousal)、语义填词率(Filler Ratio)。
- 多模态融合:时间窗对齐(±200 ms 滑动窗)、特征级拼接 vs. 决策级融合、Transformer 跨模态注意力。
- 国内合规:
‑ 眼动视频属“生物识别图像”,需单独《个人信息处理规则》并走“告知-单独同意”流程;
‑ 语音>15 s 即可提取声纹,需做声纹脱敏(加噪、降采样、x-vector 哈希)并通过网信办算法备案。 - 研究闭环:假设定义→实验设计→数据采集→模型标注→洞察输出→PRD 迭代→A/B 验证。
答案
我将分五步落地,确保“数据-模型-产品”闭环可迭代:
- 场景与假设
以“智能客服语音助手”为例,业务痛点是“用户中途静默挂断率高”。假设:用户沉默≥2 s 时实际在阅读屏幕提示,若提示布局不合理,将导致认知负荷升高并触发挂断。 - 实验设计
a. 被试:招募 60 名目标客群,男女各半,年龄 20-45 岁,签署《眼动+语音双模态采集知情同意书》。
b. 设备:采用国内过检的 7invensun 眼动仪(采样率 90 Hz)+ 普通手机麦克风(16 kHz),避免外设成本过高。
c. 任务:每人完成 3 个复杂查询(话费异议、宽带移机、国际漫游),全程录屏、录音、录眼动。 - 数据采集与标注
‑ 眼动:用 Begaze 软件导出 AOI(Area of Interest)(顶部提示区、中部按钮区、底部输入区),计算 TTFF 与回视次数。
‑ 语音:用自研 WeNet 中文模型做强制对齐,切分用户语句与系统提示,计算每句用户后的停顿时长及情感得分(基于 EmoBox 中文情感模型)。
‑ 标注:两名心理学研究生盲法标注“挂断意图”0/1,Kappa>0.82 通过。 - 洞察与指标转译
‑ 数据发现:当顶部提示字数>28 汉字且用户 TTFF>1.8 s 时,静默挂断概率提升 42%。
‑ 算法侧:将“TTFF+停顿时长”作为实时特征输入对话管理模型,触发“简化提示”策略:字数≤20 且高亮关键词。
‑ 产品侧:PRD 新增“智能折叠提示”组件,灰度发布。 - 合规与迭代
‑ 眼动视频本地加密(AES-256),24 h 内完成特征提取即删除原始视频;语音声纹经随机卷积噪点脱敏,再上传至华为云北京 Region,已通过算法备案(编号:Beijing-AN-2024-×××)。
‑ 上线后 2 周,取 10% 流量 A/B:实验组挂断率从 17.3% 降至 11.9%,客服解决率提升 4.7%,达到业务 ROI 门槛(>3%)。
用这套框架,眼动与语音不再是“酷炫 Demo”,而是直接驱动排序策略、交互组件与商业指标的可解释变量。
拓展思考
- 低成本替代:若预算不足,可退而求其次,用“前置摄像头 30 fps 视频+AI 姿态估计”做瞳孔坐标插值,误差<3° 视觉角度即可满足 C 端产品需求;语音侧可用微信小程序录音接口,限制 60 s 以内,降低合规等级。
- 负向样本再利用:把“高认知负荷”眼动片段(瞳孔直径>基线 15%)截成 3 s 视频,作为困难样本回流到 OCR 识别模型,提升小字体识别 2.1% 准确率,形成数据飞轮。
- 行业扩展:在车载场景,可把眼动 PERCLOS(单位时间眨眼比例)与语音情感做融合,实时判断驾驶员分心等级,触发 L2 辅助驾驶接管,落地前需通过中国汽车工程研究院的《车载生物识别测试规范》认证。