在DSL中引入“持续学习”关键字会打破PDDL的哪些基本假设?
解读
面试官真正想考察的是:
- 你是否吃透PDDL的经典封闭世界假设(Closed-World Assumption, CWA)与静态域模型;
- 能否把“持续学习”带来的动态本体、非稳态奖励、策略漂移等冲击,翻译成PDDL形式系统的语言;
- 是否具备在国产大模型+强化学习落地场景(如电网调度、网约车派单)里,把“持续学习”做成可解释、可回滚、可安全对齐的工程方案。
知识点
-
PDDL五大基本假设
a. 封闭世界:未显式声明的命题为假;
b. 静态域:谓词/动作模式在规划周期内不变;
c. 确定性动作效果;
d. 目标一次性达成,无持续收益;
e. 规划与执行严格二分,执行期不更新模型。 -
持续学习的三条技术主线
- 参数持续学习:在线微调大模型,出现灾难性遗忘;
- 结构持续学习:动态增删谓词、类型与动作,本体漂移;
- 策略持续学习:奖励函数随数据分布非稳态变化,策略震荡。
-
国内工程红线
- 安全等保2.0要求模型变更可审计;
- **工信部《生成式AI管理暂行办法》**要求版本回滚≤30分钟;
- 电力、金融等关键领域要求可解释性报告随版本同步输出。
答案
引入“持续学习”关键字后,PDDL的四条核心假设被直接打破:
-
封闭世界假设失效
持续学习会在线发现新实体(如新设备、新道路),必须开放世界语义;否则规划器把未知常量当false,导致致命性漏解。 -
静态域假设失效
关键字允许在求解循环中动态追加谓词与动作,domain文件不再只读;传统规划器缓存的** grounded 动作全集瞬间失效,需增量重grounding**。 -
确定性效果假设失效
持续学习用贝叶斯更新或RL估计动作成功率,使得同一动作带时变概率分布;PDDL 2.1的:probabilistic-effects虽可语法兼容,但求解器必须换成SSP或MDP引擎,彻底脱离经典A*。 -
规划-执行二分假设失效
持续学习要求执行→观测→更新模型→再规划的闭环,PDDL batch规划模式被在线规划( continual planning)取代;国内落地时须引入版本影子库+灰度回滚,满足等保可审计要求。
总结:持续学习关键字把PDDL从“一次性离线编译”拉向“在线演化操作系统”,需要重写语义层、求解层、运维层三块栈。
拓展思考
-
如何在国产昇腾或寒武纪芯片上,把持续学习后的新domain文件热加载到规划服务,GPU显存不重启?
答案提示:用共享内存+内存映射方式,double-buffering domain对象,切换时原子替换指针,配合RCU机制保证请求零丢包。 -
若持续学习导致奖励函数漂移,如何给电网调度Agent做安全对齐?
答案提示:引入Shield约束层,用CTL公式固化“频率波动<±0.05Hz”等硬规则;每次模型更新后跑形式化验证,30秒内出具报告,不满足立即回滚到上一通过验证的checkpoint。