当在线奖励方差突然增大3倍时，如何触发自动回滚？ - 问题详情 - 创脉思 | 专业面试题库网站

当在线奖励方差突然增大3倍时，如何触发自动回滚？

解读

在国内工业级强化学习系统中，奖励方差是在线策略健康度的核心指标。方差突然放大3倍，往往意味着数据分布漂移、策略震荡或外部攻击，必须秒级止损。面试官想考察的是：

你是否能把统计异常检测与工程回滚链路打通；
是否熟悉国产A/B平台（如阿里ChaosBlade、腾讯蓝鲸、字节A/B Scheduler）的灰度熔断接口；
能否在合规审计前提下保留现场证据，满足等保2.0对日志6个月可回溯的要求。

知识点

三西格玛漂移检测：基于指数加权移动方差（EWMS）实时流计算，窗口长度按业务心跳动态调整（电商15s、金融3s）。
双阈值策略：先触发熔断降级（停止探索，固定ε=0），连续两个窗口仍异常才回滚模型权重到上一稳定checkpoint，防止误杀。
国产流水线：通过KubeVela的ApplicationRevision机制，在ACK/腾讯云TKE集群内原地热回滚，无需重建Pod，P99回滚时间<5s。
审计留痕：把方差序列、决策原因、操作人写入Loki+OSS双副本，AES-256加密，RAM角色最小权限读取，满足银保监会现场检查要求。

答案

指标采集：Flink SQL每500ms计算一次增量奖励方差，写入Kafka Topic: reward_stat。
异常判定：
σ²t > 3×σ²t-1 且持续两个滑动窗口（默认30s）即判定P3级故障。
决策引擎：
Agent侧Sidecar容器内嵌OPA（Open Policy Agent）规则，收到异常事件后调用平台熔断API：
- 先关闭探索，把温度系数τ→0；
- 若60s内方差未回落，则通过KubeVela CLI执行vela rollout restart --rollback-to=revision=last-known-good，原地热替换模型权重。
通知与审计：
回滚完成立即钉钉群机器人+短信通知值班，TraceID写入SLS日志，快照保存24h供事后根因分析。

拓展思考

非平稳奖励场景：若业务本身存在大促脉冲，可引入动态基线（Holt-Winters预测）替代固定3倍阈值，减少误召回。
多Agent协同：在多智能体博弈中，单Agent方差放大可能是对手策略突变，此时需联合假设检验（Hotelling T²）判断是否群体回滚，避免羊群效应。
合规升级：生成式Agent上线前，需在网信办备案算法，回滚逻辑应写入算法安全自评估报告，确保自动决策可解释，防止**“黑箱”处罚**。

题目导航

上一题：描述一种利用CQL与SAC交替训练的滚动发布策略下一题：如何计算偏好对之间的margin并设置早停阈值？