如何构建中文购物场景任务并定义成功率指标?
解读
面试官想通过这道题验证三件事:
- 你能否把“百亿/千亿参数大模型”真正映射到国内电商业务痛点,而不是空谈技术;
- 你能否用中文语境下的真实用户行为设计可落地的任务范式;
- 你能否给出可量化、可灰度、可闭环的成功率指标,并解释如何用 LLMOps 持续监控。
回答时必须体现“场景-任务-指标-监控”四位一体,且所有指标都能从日志里自动抽取,不能依赖人工标注。
知识点
- 中文购物场景四要素:用户意图、商品知识、平台规则、营销节奏(大促、直播、百亿补贴)。
- 任务范式:Multi-turn 任务型对话 → 拆成意图识别槽位填充→商品召回→推荐理由生成→下单说服→售后问答五级子任务。
- 指标分层:
- 在线业务层:支付转化率、客单价提升、退货率下降;
- 模型能力层:任务完成率(Task Success Rate, TSR)、答案幻觉率、安全违规率;
- 系统运维层:首 token 延迟、千次调用成本、GPU 利用率。
- 数据闭环:把用户“点-逛-问-比-付-退”六段日志埋点回流,24 h 内自动更新指令微调样本池与奖励模型训练集,实现强化学习人类反馈(RLHF) 的日更。
- 合规红线:必须符合《生成式 AI 服务管理暂行办法》第 6 条,禁止价格欺诈、夸大疗效、低俗营销,需在推理侧部署实时敏感词+价格校验双挡板。
答案
步骤一:场景任务化
把“中文购物”拆成可评测的封闭任务——“带约束的多轮商品推荐对话”。输入是用户中文 query+实时商品库+活动规则,输出需在给定轮次内完成精准推荐并引导支付。
步骤二:构建评测集
- 从天猫/京东/抖音近 30 天成交日志中抽样 10 万会话,保留支付成功与流失两类样本;
- 用规则+人工双重标注,形成 5 千条黄金标准对话,每条包含“用户目标、必需属性、预算区间、支付结果”;
- 对同一用户目标再构造对抗干扰集(库存不足、优惠券过期、同款高价),共 1 万条,用于测试模型鲁棒性。
步骤三:定义核心成功率指标
- Primary TSR = 在 5 轮内推荐商品被加入购物车且 30 分钟内支付的会话占比;
- Secondary TSR 细拆:
- 意图识别准确率≥96%(必须正确识别“比价/求推荐/求优惠”三类意图);
- 属性填充召回率≥94%(品牌、预算、尺寸、场景四大槽位);
- 商品幻觉率≤1%(模型捏造“不存在的 SKU 或价格”次数/总推荐次数);
- 合规违规率=0(触发价格法、广告法敏感词即记一次违规)。
- 业务北极星指标:实验组相比基线支付转化率相对提升≥+3.5%,退货率相对下降≥-1.2%,否则视为不成功。
步骤四:LLMOps 监控
- 实时:把 TSR 与违规率写入Prometheus+Grafana,每 5 min 触发一次P99 延迟告警;
- 天级:用Airflow+Spark回刷前一天全量日志,自动更新奖励模型;
- 周级:A/B 实验平台(如阿里XMatrix)对比实验组与对照组,置信度≥99%,Power≥80% 才全量。
步骤五:持续迭代
当 Primary TSR 连续 7 天低于基线-1σ,自动触发回滚+指令微调紧急热修复;若幻觉率>1%,立即冻结线上模型,用知识外挂+价格校验 API 做动态提示重写,30 分钟内止血。
拓展思考
- 多模态升级:当用户上传直播间截图或短视频,需把OCR+ASR+商品检测结果拼成统一上下文,再进入推荐任务,此时指标需新增图文一致性分数(Image-Text Consistency Score, ITCS)。
- 私域场景:在微信小程序内,用户授权了历史订单与地址,模型可做千人千面的价格敏感预测,此时成功率指标要引入**“优惠敏感度命中率”**:模型预测用户“需要优惠券才下单”且实际发放后支付,即算命中。
- 算力成本约束:若业务方要求单轮推理成本≤6 ms 且 GPU 利用率≥65%,需把 7B 微调模型做INT8 量化+投机采样,同时用缓存命中率作为系统层成功率子指标,确保在成本红线内达成业务目标。