在DSL中引入“持续学习”关键字会打破PDDL的哪些基本假设?

解读

面试官真正想考察的是:

  1. 你是否吃透PDDL的经典封闭世界假设(Closed-World Assumption, CWA)与静态域模型
  2. 能否把“持续学习”带来的动态本体、非稳态奖励、策略漂移等冲击,翻译成PDDL形式系统的语言;
  3. 是否具备在国产大模型+强化学习落地场景(如电网调度、网约车派单)里,把“持续学习”做成可解释、可回滚、可安全对齐的工程方案。

知识点

  1. PDDL五大基本假设
    a. 封闭世界:未显式声明的命题为假;
    b. 静态域:谓词/动作模式在规划周期内不变;
    c. 确定性动作效果;
    d. 目标一次性达成,无持续收益;
    e. 规划与执行严格二分,执行期不更新模型。

  2. 持续学习的三条技术主线

    • 参数持续学习:在线微调大模型,出现灾难性遗忘
    • 结构持续学习:动态增删谓词、类型与动作,本体漂移
    • 策略持续学习:奖励函数随数据分布非稳态变化,策略震荡
  3. 国内工程红线

    • 安全等保2.0要求模型变更可审计;
    • **工信部《生成式AI管理暂行办法》**要求版本回滚≤30分钟;
    • 电力、金融等关键领域要求可解释性报告随版本同步输出。

答案

引入“持续学习”关键字后,PDDL的四条核心假设被直接打破

  1. 封闭世界假设失效
    持续学习会在线发现新实体(如新设备、新道路),必须开放世界语义;否则规划器把未知常量当false,导致致命性漏解

  2. 静态域假设失效
    关键字允许在求解循环中动态追加谓词与动作,domain文件不再只读;传统规划器缓存的** grounded 动作全集瞬间失效,需增量重grounding**。

  3. 确定性效果假设失效
    持续学习用贝叶斯更新或RL估计动作成功率,使得同一动作带时变概率分布;PDDL 2.1的:probabilistic-effects虽可语法兼容,但求解器必须换成SSP或MDP引擎,彻底脱离经典A*。

  4. 规划-执行二分假设失效
    持续学习要求执行→观测→更新模型→再规划的闭环,PDDL batch规划模式被在线规划( continual planning)取代;国内落地时须引入版本影子库+灰度回滚,满足等保可审计要求。

总结:持续学习关键字把PDDL从“一次性离线编译”拉向“在线演化操作系统”,需要重写语义层、求解层、运维层三块栈。

拓展思考

  1. 如何在国产昇腾或寒武纪芯片上,把持续学习后的新domain文件热加载到规划服务,GPU显存不重启
    答案提示:用共享内存+内存映射方式,double-buffering domain对象,切换时原子替换指针,配合RCU机制保证请求零丢包。

  2. 若持续学习导致奖励函数漂移,如何给电网调度Agent安全对齐
    答案提示:引入Shield约束层,用CTL公式固化“频率波动<±0.05Hz”等硬规则;每次模型更新后跑形式化验证30秒内出具报告,不满足立即回滚到上一通过验证的checkpoint