如何识别并拆解“自主感知-决策-行动”闭环中的模糊动词？ - 问题详情 - 创脉思

解读

在国内 Agent 落地场景里，面试官真正想考察的是：

一句话：把“模糊动词”变成“机器能签收的任务单”。

给面试官一个可落地的五步打法，全程用中文原生工具链，不依赖英文 SOTA：

第一步：触发词定位
用轻量级 BERT-CRF 序列标注（如 Chinese-BERT-wwm + 自建 1.2 万条口语动词标注）把“搞定”“处理”“安排”高亮出来，召回率优先，允许误召。

第二步：动词语境向量化
把动词前后 512 token 喂给中文 DeBERTa 对比学习模型，输出 768 维向量；同时用哈工大 LTP 抽取核心论元（施事、受事、时间、地点），得到结构化四元组。向量+结构一起作为下游拆解模型的输入，解决“一词多义”。

第三步：候选子动作枚举
基于阿里 OpenSPG 事理图谱离线挖掘的“动词→子事件”概率表，把“搞定出差”先展开成“订机票、订酒店、填出差申请、预约接送机”等 12 条候选子动作，每条带 P(子动作|动词) 先验概率。

第四步：安全与业务规则剪枝

第五步：可解释性回包
把最终子动作序列包装成JSON-L 证据链返回给前端，包含：

示例回答结尾补一句：“该 pipeline 已在公司差旅 Agent 上线，把‘搞定出差’的平均解析耗时从 2.1 s 降到 380 ms，用户二次澄清率下降 42%。”用数据收尾，面试官会立即体感落地价值。

多轮对话下的动词漂移：当用户说“算了，酒店我自己订”时，如何增量剪枝已生成的子动作而不重跑全链路？可引入版本化 DAG 任务图，支持局部回滚。
小样本新动词快速冷启动：遇到网络黑话“整个狠活”，没有标注数据。可用对比学习 + Prompt 自举：先用大模型生成 20 条伪标签，再人工纠偏 5 条，即可在 30 分钟内完成模型热更新。
与国产大模型备案要求对齐：动词拆解若涉及个人信息出境（如调用海外航班 API），必须在剪枝层强制阻断，并记录阻断日志以备网信办抽查。