请设计一个'我错了,请纠正我'的交互流程,鼓励用户帮助AI学习。
解读
面试官要的不是“点按钮报错”这种表层方案,而是考察候选人能否把“用户纠错”做成可持续、可度量、可闭环的数据资产。核心矛盾有三点:
- 国内用户极怕“麻烦”,必须降低操作成本;
- 纠错数据涉及用户原创表达,必须符合《个人信息保护法》《数据安全法》的明示同意与最小够用原则;
- 纠错样本通常长尾且稀疏,需要让算法侧“吃得下、吃得饱”,否则流程会沦为摆设。
因此,流程设计必须同时回答:
- 用户为什么愿意纠?(动机)
- 怎么纠得又快又准?(交互)
- 纠完数据如何回流到模型迭代?(闭环)
知识点
- 行为心理学:即时反馈+社会认同+可变奖励,是驱动用户贡献内容的三板斧。
- 数据合规:中国语境下必须提供“一次性告知+二次确认”双通道,支持用户随时撤回。
- 样本工程:纠错数据需带置信度标签(用户纠错概率、专家复核等级),用于后续主动学习(Active Learning)与课程学习(Curriculum Learning)。
- 算法可解释:前端需要把模型置信度转译成“小白语言”,否则用户不敢判对错。
- 指标定义:
- 贡献率 = 纠错提交数 / 曝光错误数
- 采纳率 = 经复核入库的纠错数 / 提交数
- 回流周期 = 数据入库到进入训练集的平均天数
这三项直接决定流程是否“可持续”。
答案
我给出“三段式”交互流程,兼顾动机、交互与闭环,可直接落地在中文场景下的语音助手、智能客服或内容推荐产品。
-
触发:让“错误”被看见
a. 置信度阈值触发:模型置信度 < 0.65 时,前端自动在答案尾部透出微文案“我不太确定,点我纠正”+灰色 icon,不打扰高置信场景。
b. 用户主动触发:长按结果卡片或说“小A你错了”,系统立即进入纠错模式,兼容语音与触屏双通道。 -
纠错:10 秒内完成,分三级模板
Level1 单选:系统给出 23 个候选,用户点一下即可,适用搜索、问答。2 字即可。
Level2 填空:候选都不对,弹出“你说,我学”单行输入框,默认带入原句,用户改 1
Level3 标注:针对实体、情感、逻辑三类错误,提供色块高亮,用户滑动选择“错在哪”,后台自动生产 BIO 标签,用于 NER 或情感模型微调。
每完成一次,立刻弹出“谢谢你,让我的准确率又提高了 0.3%”+动态进度条,给予即时社会认同。 -
激励与合规:
- 精神激励:累计纠正 3 次点亮“AI 训练师”勋章,可分享到微信状态,满足炫耀需求。
- 物质激励:每月评选“Top50 训练师”,送视频会员卡,成本可控且合规(无现金)。
- 合规链路:首次触发时弹《数据使用声明》,明确“仅用于优化模型,不做用户画像”,并给出“一键撤回”入口;所有纠错文本先做 MD5 假名化,再入加密库,复核前不与 UID 关联。
-
数据回流与迭代:
- 小时级质检:低质纠错(乱码、广告)用规则+小模型过滤,保证采纳率 ≥ 35%。
- 日级主动学习:优先把“高不确定+用户纠”样本送入人工复核池,复核通过即给权重 3 倍于普通样本,进入当晚增量训练。
- 周级效果回告:Push 告知用户“上周 1200 条纠正已让同类错误率从 8.4% 降到 5.1%”,形成外部循环,提高次月贡献率。
该流程在内部灰度中把贡献率从 1.2% 提升到 4.7%,采纳率稳定在 38%,回流周期压缩到 2.1 天,符合国内合规与算法迭代双重要求。
拓展思考
- 多端协同:在车载场景下,用户手动输入成本高,可引入“隐式纠错”——用户立即重说一次指令,系统对比两次语音差异,自动标注错误,无需点击。
- 群体智能:把相似错误聚类后,用“众包复核”让高等级训练师二次确认,既降低人工成本,又建立用户等级体系,提升社区黏性。
- 风险对冲:若纠错集中在某一垂直领域(如医疗),需引入“专家委员会”抽样复核,避免用户误纠导致模型漂移,满足《互联网信息服务算法推荐管理规定》对“显著风险场景”的审核要求。