如何计算“Agent解决率”与“人工满意度”之间的无差异点?

解读

在国内互联网企业的 Agent 落地场景中,“Agent解决率”通常指统计周期内由 Agent 独立完成并关闭的工单数占总工单数的比例;“人工满意度”则是同一批工单在转入人工后,由用户或质检员对解决结果给出的 1–5 分评价均值。无差异点(Indifference Point)是两者在经济收益、用户体验与风险成本综合视角下效用相等的临界值,高于该点则优先让 Agent 闭环,低于该点则强制人工介入。面试官想考察的是:候选人能否把强化学习里的 Reward 建模、因果推断与成本会计方法融合,给出一套可工程落地的量化框架,而不是简单画两条曲线找交点。

知识点

  1. 多目标效用函数:U = α·R + β·S – γ·C,其中 R 为解决率,S 为满意度,C 为综合成本(人力+风险+合规罚金)。
  2. 因果 uplift 模型:通过双重机器学习估计 Agent 处理对满意度的个体处理效应(ITE),排除选择偏差。
  3. 成本拆解
    • 人力成本 = 人工处理时长 × 在岗工程师时薪(按国内一线城市 60–80 元/小时计)
    • 风险成本 = 投诉升级概率 × 单起投诉平均赔付(电商平台经验值 200–500 元)
    • 合规罚金:金融、医疗类场景需额外计入监管罚金期望
  4. 无差异点方程:令 E[U_agent] = E[U_human],解出 R* = (β·ΔS + γ·ΔC) / α,其中 ΔS 与 ΔC 分别为 Agent 与人工在满意度与成本侧的差值。
  5. 在线校准:使用贝叶斯优化在灰度环境中持续更新 α、β、γ,对抗概念漂移。

答案

步骤一:数据准备
取最近 30 天随机对照实验数据,确保 Agent 与人工队列在业务线、时段、用户等级三维分层抽样一致,样本量≥10 k 以支撑 0.01 显著性。

步骤二:因果估计
因果森林估计每条工单若由 Agent 处理带来的满意度增量 τ_i,同时记录其实际解决时长 t_i 与赔付标记 f_i。

步骤三:成本核算
按国内 2024 年 IT 外包均价,人工处理一单平均成本 18 元;Agent 运行时成本仅 0.3 元,但若升级投诉则追加 350 元风险成本。由此得到
C_human = 18
C_agent = 0.3 + 350·P_complaint

步骤四:效用等式
设定企业 OKR 权重 α:β:γ = 4:3:2,代入
4·R – 2·C_agent = 3·S – 2·C_human
整理得
R* = (3·S + 2·(C_human – C_agent)) / 4
将 S 取历史人工满意度均值 4.45,C_human – C_agent ≈ 17.7 – 0.3 – 350·P_complaint,可得
R* ≈ 3.34 + 8.85 – 175·P_complaint
当投诉概率 P_complaint = 2 % 时,无差异点解决率 R ≈ 10.7 %**;若通过提示工程与知识图谱把 P_complaint 压到 0.5 %,则 R 提升到 11.8 %。即:只要 Agent 解决率高于 11.8 %,系统整体效用就优于全部转人工。

步骤五:上线监控
在 Kubernetes 侧写入策略网关,实时比对当前解决率与动态 R*;若低于阈值立即触发降级,把流量切回人工并记录特征,用于下一轮增量训练。

拓展思考

  1. 用户分层无差异点:高净值用户的 β 权重可上调 50 %,导致 R* 提高,意味着对 Agent 能力要求更苛刻,需要单独模型版本。
  2. 长时序效应:Agent 连续出错会拉低品牌 NPS,需在效用函数里加入信誉折旧项 δ·log(1+N_fail),防止短期指标最优却透支长期口碑。
  3. 监管沙盒:国内金融类项目须向央行报备算法策略,无差异点计算公式与参数权重需写入《算法风险自评估报告》,并接受第三方审计;因此在工程实现时必须做到可解释回滚,每步决策能追溯到具体特征权重。