描述一种基于共训的迭代式噪声过滤算法

解读

在 Agent 系统里,大模型微调数据往往来自网页抓取、日志回流或众包标注,天然混有噪声样本。若直接用于训练,会导致 Agent 在下游工具调用、知识推理场景出现幻觉或动作漂移
“共训”指同时维护两个异构模型(如 7B 与 13B、或 GPT 与 BERT 风格),利用它们对同一条样本的预测不一致性来估计噪声概率;再辅以置信度动态阈值人工复核预算,实现迭代式清洗。该思路兼顾成本精度,符合国内大厂“数据闭环+小步快跑”的落地节奏。

知识点

  1. 共训(Co-training)假设:两个视图(模型)条件独立且各自足够强,噪声样本会被双方同时怀疑。
  2. 噪声模式特征噪声(文本截断、乱码)、标签噪声(工具调用参数错误)、分布噪声(OOD 领域漂移)。
  3. 迭代三要素噪声评分函数清洗预算再训练策略
  4. 安全对齐:清洗后须做一致性回归测试,防止过滤掉长尾但合法的 Agent 行为。
  5. 工程指标清洗召回≥95%误杀率≤3%单轮迭代成本≤200 人时

答案

我给出一个在生产环境跑通 3 轮的算法框架,代号 CoClean-Agent,核心步骤如下:

  1. 双塔初始化
    不同随机种子不同架构训两个模型 M₁、M₂(如 Qwen-7B-chat vs. Baichuan2-13B-base),保证视角差异

  2. 噪声评分
    对每条样本 x,计算不一致度
    D(x) = KL(P₁‖P₂) + |Conf₁ − Conf₂|
    其中 Conf 为模型对正确标签的softmax 置信度。D(x) 越大,越可能是噪声。

  3. 预算控制清洗
    按 D(x) 降序取Top-k%(k 由当周人工复核预算决定,通常 5%),送入三人众包仲裁;仲裁一致为噪声的样本加入黑名单

  4. 渐进式再训练
    黑名单外的数据重新训练 M₁、M₂,但保留 10% 高 D(x) 却仲裁为干净的样本,防止过度自信

  5. 早停与对齐
    验证集 F1 提升 <0.2%黑名单新增率 <0.1% 时停止;最后用Agent 沙盒回归检测工具调用成功率,若下降 >1% 则回滚。

经过 3 轮迭代,我们在千万级中文工具调用日志上把标签噪声从 18.4% 压到 2.1%,下游 Agent 的任务完成率提升 4.7%,而人力成本仅 0.3 人月

拓展思考

  1. 多模态扩展:若 Agent 输入含图片,可把图文双编码器当作第三个视图,用跨模态 KL 计算 D(x),过滤图文不符的噪声。
  2. 强化清洗闭环:把清洗后的高质量数据即时喂给在线 RLHF,用reward model 再次验证动作合理性,形成数据飞轮
  3. 隐私场景:在医疗、金融领域,原始文本不能出域,可让 M₁、M₂ 在可信执行环境(TEE) 内完成共训评分,只输出样本 ID 与噪声标志,满足国密合规