给出一种基于风险矩阵的Agent自主级别划分 - 问题详情 - 创脉思 | 专业面试题库网站

给出一种基于风险矩阵的Agent自主级别划分

解读

面试官想验证三件事：

你是否能把“风险”拆成可量化的二维指标，而非拍脑袋分级；
你是否能把自主度与风险后果映射到国内监管语境（等保、数安、个保、算法备案）；
你是否给出可落地的工程落地接口——让研发、安全、法务、运营一眼看懂“我这句代码属于哪一级”。
回答时务必先给出“矩阵横纵轴”，再给出“五级定义”，最后给出“降级开关”与“备案红线”，体现Agent工程师的系统性思维。

知识点

风险矩阵核心：发生概率 × 影响严重程度；需把“概率”换成“决策不可撤回度”，把“严重程度”换成“社会与国家影响等级”，才能对齐《生成式AI管理办法》第6条。
国内已有分级参照：智能网联汽车自动驾驶 L0-L5、金融算法交易分级、等保2.0控制点；可直接借用其“可控、可接管、可审计”三字诀。
工程落地三件套：实时风险估分器（Runtime Risk Estimator）、人类一键冻结（Big Red Button）、日志留痕与算法备案包（Log&Report Package）。
关键合规词：“显著标识”、“透明可解释”、“安全评估”、“国家网信部门备案”；必须在级别描述里显性化出现，证明你懂监管。

答案

我提出的划分叫“PRISM五级模型”，横轴为决策不可撤回度（Probability of No-Recall），纵轴为影响严重程度（Severity），两轴各分三档，交叉后取最大值落地到五个自主级别，完全对标国内监管。

一级：辅助建议型（PRISM-1）

不可撤回度≤5%，影响等级≤“轻微”；
任何决策需人类二次确认；
日志留存30天即可，无需备案。
典型场景：Copilot 代码补全、智能客服话术推荐。

二级：半自主型（PRISM-2）

不可撤回度5%-30%，影响等级“轻微-一般”；
允许单次自动执行，但需在10秒内可人工撤回；
必须接入实时风险估分器，日志留存180天；
若处理个人信息，需做个人信息影响评估（PIA）。
典型场景：RPA 填报、低额智能投顾。

三级：条件自主型（PRISM-3）

不可撤回度30%-70%，影响等级“一般-较重”；
系统须具备动态降级策略：风险分>阈值→自动降到二级；
操作前显著标识“AI自主执行”，并同步到人类监管台；
需要第三方安全评估报告，并在省级网信办算法备案。
典型场景：无人仓调度、医疗影像初筛。

四级：高度自主型（PRISM-4）

不可撤回度70%-95%，影响等级“较重-严重”；
必须内置双冗余安全通道与Big Red Button；
每季度做一次等保三级测评与模型伦理审查；
向上级主管部门提交实时运行数据接口，接受随机抽检。
典型场景：高速干线物流卡车编队、电网拓扑自愈。

五级：完全自主型（PRISM-5）

不可撤回度>95%，影响等级“严重-特别严重”；
目前国家红线内禁止上线；
若科研需要，必须走国家网信部门专项审批+沙箱封闭运行；
一旦出现负向舆情，立即冻结并上报中央网信办。
典型场景：战时自主火力协同、国家级金融攻防对抗。

工程落地时，我们在代码层用装饰器给每个工具调用打标签：
@autonomy_level(3, recall_window=10s, red_button=True)
CI/CD 阶段自动校验：四级及以上任务若无备案号，流水线强制失败，确保**“代码即合规”**。

拓展思考

如何把“影响严重程度”量化？可引入**“等保+数据分类”**双因子：等保定级（1-5）× 数据级别（公开/内部/机密/绝密），得到0-20分，>16分即“严重”。
当Agent进入多智能体协作时，需把“群体不可撤回度”定义为1-∏(1-pi)，防止“单级安全、群体失控”。
未来若《人工智能法》落地，可能新增**“伦理一票否决”通道；建议在矩阵旁再挂一条伦理红线向量**，与风险分做张量求并，实现法规-伦理双轴控制。

题目导航

上一题：如何定义“人类有意义控制”的量化指标？下一题：当Agent拒绝执行人类指令时，如何记录审计日志？