描述一种基于共训的迭代式噪声过滤算法 - 问题详情 - 创脉思

解读

在 Agent 系统里，大模型微调数据往往来自网页抓取、日志回流或众包标注，天然混有噪声样本。若直接用于训练，会导致 Agent 在下游工具调用、知识推理场景出现幻觉或动作漂移。
“共训”指同时维护两个异构模型（如 7B 与 13B、或 GPT 与 BERT 风格），利用它们对同一条样本的预测不一致性来估计噪声概率；再辅以置信度动态阈值与人工复核预算，实现迭代式清洗。该思路兼顾成本与精度，符合国内大厂“数据闭环+小步快跑”的落地节奏。

知识点

共训（Co-training）假设：两个视图（模型）条件独立且各自足够强，噪声样本会被双方同时怀疑。
噪声模式：特征噪声（文本截断、乱码）、标签噪声（工具调用参数错误）、分布噪声（OOD 领域漂移）。
迭代三要素：噪声评分函数、清洗预算、再训练策略。
安全对齐：清洗后须做一致性回归测试，防止过滤掉长尾但合法的 Agent 行为。
工程指标：清洗召回≥95%、误杀率≤3%、单轮迭代成本≤200 人时。

答案

我给出一个在生产环境跑通 3 轮的算法框架，代号 CoClean-Agent，核心步骤如下：

双塔初始化
用不同随机种子与不同架构训两个模型 M₁、M₂（如 Qwen-7B-chat vs. Baichuan2-13B-base），保证视角差异。
噪声评分
对每条样本 x，计算不一致度
D(x) = KL(P₁‖P₂) + |Conf₁ − Conf₂|
其中 Conf 为模型对正确标签的softmax 置信度。D(x) 越大，越可能是噪声。
预算控制清洗
按 D(x) 降序取Top-k%（k 由当周人工复核预算决定，通常 5%），送入三人众包仲裁；仲裁一致为噪声的样本加入黑名单。
渐进式再训练
用黑名单外的数据重新训练 M₁、M₂，但保留 10% 高 D(x) 却仲裁为干净的样本，防止过度自信。
早停与对齐
当验证集 F1 提升 <0.2% 或黑名单新增率 <0.1% 时停止；最后用Agent 沙盒回归检测工具调用成功率，若下降 >1% 则回滚。

经过 3 轮迭代，我们在千万级中文工具调用日志上把标签噪声从 18.4% 压到 2.1%，下游 Agent 的任务完成率提升 4.7%，而人力成本仅 0.3 人月。

拓展思考

多模态扩展：若 Agent 输入含图片，可把图文双编码器当作第三个视图，用跨模态 KL 计算 D(x)，过滤图文不符的噪声。
强化清洗闭环：把清洗后的高质量数据即时喂给在线 RLHF，用reward model 再次验证动作合理性，形成数据飞轮。
隐私场景：在医疗、金融领域，原始文本不能出域，可让 M₁、M₂ 在可信执行环境(TEE) 内完成共训评分，只输出样本 ID 与噪声标志，满足国密合规。