请举例说明您曾将一个非技术导向的业务诉求(如'提高客户满意度')转化为可执行的AI指标的过程。

解读

面试官想验证三件事:

  1. 能否把“虚”的业务目标拆成可量化、可算法化的信号;
  2. 是否熟悉国内数据与合规现状(如《个人信息保护法》、工信部《App用户权益保护测评规范》);
  3. 能否把算法指标与后续数据闭环、上线验收、业务ROI串成完整故事。
    回答结构必须体现“业务痛点→可观测信号→算法目标→数据方案→上线指标→迭代闭环”,且给出真实可落地的数字区间,避免空谈“准确率越高越好”。

知识点

  1. 客户满意度(CSAT)拆解:国内主流用短信/微信小程序 5 分制评价,样本偏差大,需与行为数据交叉验证。
  2. 可算法化的代理指标:
    ‑ 负向情绪占比(语音转文本后情绪标签为“愤怒/抱怨”的通话占比);
    ‑ 重复来电率(72 h 内同一号码再次进线);
    ‑ 静默挂断率(通话时长 <15 s 且客户先挂断)。
  3. 算法目标设定:先定“可接受基线”,再定“业务撬动点”。例如重复来电率每降 1%,可折算减少 0.8% 投诉工单,直接节省人工成本 ≈ 120 万元/年(按一线坐席 600 人、人均 12 万/年测算)。
  4. 数据合规:通话录音需单独弹窗授权,脱敏后存储;情绪标签属于“衍生数据”,可不走原始录音授权,但需在隐私政策中明示“用于服务质检”。
  5. 分层评估:
    ‑ 模型层:F1≥0.78,召回≥0.80(优先降低漏检,避免负面舆情);
    ‑ 系统层:实时质检延迟 <300 ms,不影响坐席工作台流畅度;
    ‑ 业务层:30 天内重复来电率绝对值下降 ≥2.5%,CSAT 提升 ≥3%。

答案

背景:2022 年我在某头部城商行信用卡中心负责“智能客服质检”项目,业务方核心诉求只有一句话——“提高客户满意度,压降投诉”。
步骤如下:

  1. 业务痛点量化
    拉取近 12 个月 1.8 亿通录音,发现投诉工单中 83% 在通话 72 h 内有重复来电,且情绪标签为“愤怒”的通话投诉率高 7.4 倍。因此把“提高客户满意度”转译为“降低 72 h 重复来电率”和“降低负向情绪通话占比”两个可观测信号。
  2. 算法目标设定
    用历史数据做 ROC 分析,当召回 ≥0.80 时,可覆盖 92% 的潜在投诉样本;此时精确率 0.76,业务可接受。于是敲定模型指标:情绪分类 F1≥0.78,召回≥0.80;重复来电预测 AUC≥0.85。
  3. 数据方案
    ‑ 训练数据:随机抽样 5 万通已脱敏录音,外包给合肥某有《数据安全等级保护三级》资质的标注基地,采用“3+1”质检流程(3 人交叉+1 人仲裁),成本 1.4 元/分钟,合计 17 万元。
    ‑ 特征工程:除 256 维语音情感向量外,引入“是否账单日 T+3”“是否额度使用率>90%”等金融域强相关特征,提升 AUC 0.07。
  4. 上线策略
    采用“ shadow 模式”跑 2 周,模型实时推送到坐席工作台,但不干预流程;验证延迟 220 ms,CPU 占用增加 3%,符合运维红线。随后灰度 10% 坐席,当检测到“高风险”通话时,弹窗提示班长席介入。
  5. 业务结果
    灰度 30 天后,72 h 重复来电率从 9.1% 降至 6.6%,绝对值降 2.5%,对应减少 4.3 万通进线;按单通 6.8 元人工结算,节省 29.2 万元/月。CSAT 短信回采得分由 79.4 提升至 82.7,超额完成季度 KPI。
  6. 迭代闭环
    把“模型误判导致班长席过度介入”的案例回流标注,2 周内补充 6 千条难样本,F1 提升至 0.81;同步把“重复来电率”嵌入客服团队奖金系数,实现数据-模型-业务三方闭环。

拓展思考

  1. 如果业务方下一轮诉求是“提升 NPS(净推荐值)”,可考虑把“高情绪正向且办理分期成功”的通话作为正样本,训练“惊喜时刻”模型,指导坐席话术,而非仅做风险防控。
  2. 在《数据出境安全评估办法》框架下,若未来使用云端预训练大模型,需走属地化部署+模型蒸馏,避免原始语音出境。
  3. 当指标已接近瓶颈(重复来电率 ≤4%),可转向“因果推断”:通过双重差分法评估“主动关怀外呼”是否真因模型驱动而降低投诉,而非宏观政策或账单周期因素,从而证明 AI 的边际贡献。