当存在未观测混淆变量时,如何采用负控制变量校正?

解读

在 Agent 系统的因果推断链路里,未观测混淆变量(U)会同时影响“动作-策略”与“奖励-结果”,导致策略梯度估计出现混杂偏差。国内工业界面试时,考官想确认两点:

  1. 你是否意识到“负控制”不是随便找变量,而是满足双重否定准则——既与 U 相关,又与动作-结果机制独立;
  2. 能否把校正流程拆成可落地的工程模块,兼容离线回放与在线增量。
    回答必须体现“大模型+强化学习”场景下的高维连续动作空间稀疏奖励特点,否则会被判为“只背教科书”。

知识点

  1. 负控制暴露(NC-E):在 Agent 日志里选取一条代理观测但未被策略采纳的候选动作 a′,它与真实动作 a 共享 U,但与奖励 Y 无直接因果路径。
  2. 负控制结果(NC-O):选取一条对业务无实际价值的辅助指标 Z(如日志写入耗时),它被 U 影响,却不受 a 的直接干预。
  3. 双重稳健矩估计:利用 NC-E 与 NC-O 构造桥函数 h(Z)、q(a′),通过矩条件 E[h(Z)−q(a′)]=0 估计混淆因子载荷,再对策略梯度加权校正。
  4. 工程落地:在 Flink 实时特征流中并行双写 NC-E、NC-O,离线用 Spark 训练桥函数,在线通过gRPC 特征服务把权重注入策略网络,实现毫秒级校正。
  5. 合规与可解释:校正后的策略需通过央行《人工智能算法金融应用评价规范》 的混淆偏差测试,日志保留5 年可审计

答案

分五步落地:
第一步,变量挖掘。在已有日志里用条件互信息筛选 NC-E:要求 I(a′;Y | context)<ε 且 I(a′;U)>δ;同理筛选 NC-O:I(Z;Y | a)=0 且 I(Z;U)>δ。
第二步,桥函数训练。把 NC-E、NC-O 与 U 的代理变量一起放入深度自编码器,提取 64 维隐变量 ˆU,再拟合双网络 hθ(Z)、qϕ(a′),损失函数为矩损失 L=∥E[hθ(Z)−qϕ(a′)]∥²+λ⋅R(θ,ϕ)。
第三步,混杂权重估计。用凸优化求解 α=argminα ∥E[α⋅(hθ(Z)−qϕ(a′))]−E[δ(a,Y)]∥,得到样本级权重 w_i=exp(α⋅(h_i−q_i)),截断在 [0.2,5] 防止极端值。
第四步,策略梯度校正。在 PPO 的 Importance Sampling 项里乘以 w_i,得到无混杂目标 L^CLIP_w=E[min(r_t(θ)⋅w_t⋅A_t, clip(r_t(θ)⋅w_t, 1−ε,1+ε)⋅A_t)]。
第五步,在线监控。把 w_t 作为实时特征写入Pulsar 队列,由Flink CEP 检测权重漂移,触发自动回滚并报警至企业微信

拓展思考

  1. 当 NC-E 与 NC-O 只能拿到弱代理时,可引入大模型先验:用 LLM 生成“反事实动作描述”作为额外 NC-E,再经对比学习增强桥函数稳健性。
  2. 多智能体协作场景,其他 Agent 的观测常成为共享混淆源;此时可把邻居 Agent 的未采纳动作作为 NC-E,构建图神经网络桥函数,实现跨 Agent 混淆校正
  3. 国内监管要求“可解释”,可在校正后输出权重归因报告:用 SHAP 分解 w_i 对每条特征的贡献,PDF 加密存档,满足银保监会现场检查要求。