当文本描述与图像冲突时，如何设计冲突检测提示模板？ - 问题详情 - 创脉思

解读

在国内工业级Agent落地场景中，多模态冲突检测是保障大模型输出可信度的核心环节。面试官想考察的是：

给出一个可直接落地的三级提示模板，兼顾精度与速度：

系统指令
你是一位中文多模态冲突检测专家。请严格按以下步骤执行，禁止输出任何额外解释。

输入格式
文本：{text}
图像Base64：{image_b64}

步骤

提取文本中所有实体-属性-值三元组，记为T。
用OCR+视觉实体识别提取图像侧三元组，记为V。
若T与V在同一实体、同一属性下出现互斥值，则判定冲突。
输出JSON：{"conflict":true/false,"evidence":[{"entity":"xxx","attribute":"颜色","text_value":"红","image_value":"蓝"}]}

少样本
文本：“身穿红色外套的女孩”
图像：女孩穿蓝色外套
输出：{"conflict":true,"evidence":[{"entity":"女孩","attribute":"外套颜色","text_value":"红","image_value":"蓝"}]}

安全围栏
若实体属于敏感领域清单，直接返回{"conflict":null,"evidence":[]}，不继续推理。

持续学习闭环：把每日线上冲突样本自动加入难例库，每周用LoRA微调一次中文CLIP，实现模板阈值动态更新。
边缘部署优化：将模板固化到ONNX+TensorRT图内，把JSON模式写成强制输出Schema，推理侧只需一次前向，延迟从800 ms降到120 ms。
人机协同：当模板返回冲突且置信度<0.85时，触发众包复核任务，复核结果回流至RLHF奖励模型，让Agent学会“越辩越真”。