如何计算“Agent解决率”与“人工满意度”之间的无差异点？ - 问题详情 - 创脉思

解读

在国内互联网企业的 Agent 落地场景中，“Agent解决率”通常指统计周期内由 Agent 独立完成并关闭的工单数占总工单数的比例；“人工满意度”则是同一批工单在转入人工后，由用户或质检员对解决结果给出的 1–5 分评价均值。无差异点（Indifference Point）是两者在经济收益、用户体验与风险成本综合视角下效用相等的临界值，高于该点则优先让 Agent 闭环，低于该点则强制人工介入。面试官想考察的是：候选人能否把强化学习里的 Reward 建模、因果推断与成本会计方法融合，给出一套可工程落地的量化框架，而不是简单画两条曲线找交点。

知识点

多目标效用函数：U = α·R + β·S – γ·C，其中 R 为解决率，S 为满意度，C 为综合成本（人力+风险+合规罚金）。
因果 uplift 模型：通过双重机器学习估计 Agent 处理对满意度的个体处理效应（ITE），排除选择偏差。
成本拆解：
- 人力成本 = 人工处理时长 × 在岗工程师时薪（按国内一线城市 60–80 元/小时计）
- 风险成本 = 投诉升级概率 × 单起投诉平均赔付（电商平台经验值 200–500 元）
- 合规罚金：金融、医疗类场景需额外计入监管罚金期望
无差异点方程：令 E[U_agent] = E[U_human]，解出 R* = (β·ΔS + γ·ΔC) / α，其中 ΔS 与 ΔC 分别为 Agent 与人工在满意度与成本侧的差值。
在线校准：使用贝叶斯优化在灰度环境中持续更新 α、β、γ，对抗概念漂移。

答案

步骤一：数据准备
取最近 30 天随机对照实验数据，确保 Agent 与人工队列在业务线、时段、用户等级三维分层抽样一致，样本量≥10 k 以支撑 0.01 显著性。

步骤二：因果估计
用因果森林估计每条工单若由 Agent 处理带来的满意度增量 τ_i，同时记录其实际解决时长 t_i 与赔付标记 f_i。

步骤三：成本核算
按国内 2024 年 IT 外包均价，人工处理一单平均成本 18 元；Agent 运行时成本仅 0.3 元，但若升级投诉则追加 350 元风险成本。由此得到
C_human = 18
C_agent = 0.3 + 350·P_complaint

步骤四：效用等式
设定企业 OKR 权重 α:β:γ = 4:3:2，代入
4·R – 2·C_agent = 3·S – 2·C_human
整理得
R* = (3·S + 2·(C_human – C_agent)) / 4
将 S 取历史人工满意度均值 4.45，C_human – C_agent ≈ 17.7 – 0.3 – 350·P_complaint，可得
R* ≈ 3.34 + 8.85 – 175·P_complaint
当投诉概率 P_complaint = 2 % 时，无差异点解决率 R ≈ 10.7 %**；若通过提示工程与知识图谱把 P_complaint 压到 0.5 %，则 R 提升到 11.8 %。即：只要 Agent 解决率高于 11.8 %，系统整体效用就优于全部转人工。

步骤五：上线监控
在 Kubernetes 侧写入策略网关，实时比对当前解决率与动态 R*；若低于阈值立即触发降级，把流量切回人工并记录特征，用于下一轮增量训练。

拓展思考

用户分层无差异点：高净值用户的 β 权重可上调 50 %，导致 R* 提高，意味着对 Agent 能力要求更苛刻，需要单独模型版本。
长时序效应：Agent 连续出错会拉低品牌 NPS，需在效用函数里加入信誉折旧项 δ·log(1+N_fail)，防止短期指标最优却透支长期口碑。
监管沙盒：国内金融类项目须向央行报备算法策略，无差异点计算公式与参数权重需写入《算法风险自评估报告》，并接受第三方审计；因此在工程实现时必须做到可解释回滚，每步决策能追溯到具体特征权重。