当AI无法确定答案时,是直接说'我不知道',还是提供几个可能性选项?为什么?
解读
面试官真正想考察的是:
- 你是否理解“不确定性”在AI系统里的商业代价(用户信任、合规风险、品牌口碑)。
- 你能否把技术黑盒翻译成用户可感知、可决策的体验,而不是把“算法置信度”直接甩给用户。
- 你能否在“信息增益”与“风险暴露”之间做权衡,并给出可落地的策略级方案,而非一句“看场景”就结束。
国内监管对“误导性输出”越来越严(《深度合成规定》《算法推荐管理规定》),同时C端用户维权意识高,B端客户要背锅。产品经理必须给出“可辩护、可度量、可迭代”的应答框架。
知识点
- 置信度阈值与拒识策略:Pre-trained模型输出softmax概率或uncertainty score,通过业务预设阈值决定“拒识”还是“给出候选”。
- 风险分级矩阵:把“错误代价”ד发生概率”做成四象限,高代价场景(医疗、金融、政务)必须拒识;低代价场景(娱乐聊天)可给候选。
- 用户认知负荷:中国主流用户习惯“一站式答案”,过多选项反而造成决策疲劳,需要“3±1”原则并给出排序依据。
- 合规留痕:拒识或给出候选,都必须在日志里记录模型置信度、版本号、输入特征,以便事后审计。
- 强化学习人类反馈(RLHF)闭环:把“用户是否采纳候选”作为负向/正向奖励,持续微调阈值与排序策略。
答案
分三层回答,先给结论再给落地路径:
“我不会让产品只说‘我不知道’,也不会无条件甩给用户N个选项,而是按‘风险—成本—体验’三角做分级处理。
第一步,上线前用验证集画出ROC曲线,结合业务可接受的‘错误代价’定出置信度阈值。高于阈值直接输出答案;低于阈值进入‘安全回答’分支。
第二步,在安全回答分支里再拆两档:
a. 高监管或高代价场景(如保险理赔、医保核保)——直接拒识,返回标准化话术:‘该问题超出当前服务能力,建议转人工’,并在后台触发工单。
b. 中低代价场景(如电商客服、内容社区)——给出3个以内带置信度排序的候选答案,同时用灰色小字标明‘以下结果由AI生成,仅供参考’,并埋点记录用户点击行为。
第三步,建立‘拒识-候选’效果看板,每周追踪‘人工转接率、用户满意度、投诉量’三项指标,用贝叶斯调参自动寻找新阈值,实现闭环迭代。
这样既守住合规底线,又把不确定性转化为可持续优化的数据资产。”
拓展思考
- 多模态场景下,置信度融合策略更复杂:文本0.8、图像0.6,如何综合?可引入‘最小桶原则’或‘加权几何平均’,并在PRD里写清公式方便审计。
- 对于生成式大模型,拒识阈值不再只是softmax概率,而要考虑幻觉检测子模型+规则过滤器+知识图谱核验的三道闸门,产品经理需定义每道闸门的“召回-精准”KPI。
- 在G端招投标中,可把“可解释拒识率≥95%”写进技术规范书,作为控标项,既体现专业性也抬高竞争对手门槛。