给出一种基于风险矩阵的Agent自主级别划分

解读

面试官想验证三件事:

  1. 你是否能把“风险”拆成可量化的二维指标,而非拍脑袋分级;
  2. 你是否能把自主度风险后果映射到国内监管语境(等保、数安、个保、算法备案);
  3. 你是否给出可落地的工程落地接口——让研发、安全、法务、运营一眼看懂“我这句代码属于哪一级”。
    回答时务必先给出“矩阵横纵轴”,再给出“五级定义”,最后给出“降级开关”与“备案红线”,体现Agent工程师的系统性思维。

知识点

  1. 风险矩阵核心:发生概率 × 影响严重程度;需把“概率”换成“决策不可撤回度”,把“严重程度”换成“社会与国家影响等级”,才能对齐《生成式AI管理办法》第6条。
  2. 国内已有分级参照:智能网联汽车自动驾驶 L0-L5金融算法交易分级等保2.0控制点;可直接借用其“可控、可接管、可审计”三字诀。
  3. 工程落地三件套:实时风险估分器(Runtime Risk Estimator)、人类一键冻结(Big Red Button)、日志留痕与算法备案包(Log&Report Package)。
  4. 关键合规词:“显著标识”“透明可解释”“安全评估”“国家网信部门备案”;必须在级别描述里显性化出现,证明你懂监管。

答案

我提出的划分叫“PRISM五级模型”,横轴为决策不可撤回度(Probability of No-Recall),纵轴为影响严重程度(Severity),两轴各分三档,交叉后取最大值落地到五个自主级别,完全对标国内监管。

一级:辅助建议型(PRISM-1)

  • 不可撤回度≤5%,影响等级≤“轻微”;
  • 任何决策需人类二次确认;
  • 日志留存30天即可,无需备案。
    典型场景:Copilot 代码补全、智能客服话术推荐。

二级:半自主型(PRISM-2)

  • 不可撤回度5%-30%,影响等级“轻微-一般”;
  • 允许单次自动执行,但需在10秒内可人工撤回
  • 必须接入实时风险估分器,日志留存180天;
  • 若处理个人信息,需做个人信息影响评估(PIA)
    典型场景:RPA 填报、低额智能投顾。

三级:条件自主型(PRISM-3)

  • 不可撤回度30%-70%,影响等级“一般-较重”;
  • 系统须具备动态降级策略:风险分>阈值→自动降到二级;
  • 操作前显著标识“AI自主执行”,并同步到人类监管台
  • 需要第三方安全评估报告,并在省级网信办算法备案
    典型场景:无人仓调度、医疗影像初筛。

四级:高度自主型(PRISM-4)

  • 不可撤回度70%-95%,影响等级“较重-严重”;
  • 必须内置双冗余安全通道Big Red Button
  • 每季度做一次等保三级测评模型伦理审查
  • 向上级主管部门提交实时运行数据接口,接受随机抽检。
    典型场景:高速干线物流卡车编队、电网拓扑自愈。

五级:完全自主型(PRISM-5)

  • 不可撤回度>95%,影响等级“严重-特别严重”;
  • 目前国家红线内禁止上线;
  • 若科研需要,必须走国家网信部门专项审批+沙箱封闭运行
  • 一旦出现负向舆情,立即冻结并上报中央网信办。
    典型场景:战时自主火力协同、国家级金融攻防对抗。

工程落地时,我们在代码层用装饰器给每个工具调用打标签:
@autonomy_level(3, recall_window=10s, red_button=True)
CI/CD 阶段自动校验:四级及以上任务若无备案号,流水线强制失败,确保**“代码即合规”**。

拓展思考

  1. 如何把“影响严重程度”量化?可引入**“等保+数据分类”**双因子:等保定级(1-5)× 数据级别(公开/内部/机密/绝密),得到0-20分,>16分即“严重”。
  2. 当Agent进入多智能体协作时,需把“群体不可撤回度”定义为1-∏(1-pi),防止“单级安全、群体失控”。
  3. 未来若《人工智能法》落地,可能新增**“伦理一票否决”通道;建议在矩阵旁再挂一条伦理红线向量**,与风险分做张量求并,实现法规-伦理双轴控制