自主决策能力
环境感知与适应能力
学习能力
执行闭环程度
人类干预需求
评估说明:
- 本评估采用"瓶颈原则",即系统的最终级别主要由最低评分项决定
- 如果系统各维度能力差异较大,可能会出现"+"标记
- S0级表示不包含AI组件的纯逻辑系统
- 评估结果仅供参考,具体系统可能存在跨级别特性
单智能体系统分级
级别 |
名称 |
核心技术 |
自主决策能力 |
环境感知与适应能力 |
学习能力 |
执行闭环程度 |
人类干预需求 |
技术实现与示例 |
S0 |
基础工具 |
确定性逻辑算法 |
无自主决策,完全按预设逻辑运行 |
仅处理预定义输入 |
无学习能力 |
无闭环能力,只能执行预设的单向流程,输出结果后结束 |
完全依赖人类设定 |
简单脚本、基础自动化工具、定时任务系统 |
S1 |
规则智能体 |
确定性算法+有限AI组件 |
在预设分支内选择,决策树清晰可追溯 |
可在预设范围内适应输入变化 |
无自主学习能力 |
可在预先定义的决策树内形成有限闭环,但所有可能路径必须预先设计 |
需人类设定所有执行路径 |
Coze/Dify工作流、规则引擎、专家系统 |
S2 |
Copilot智能体 |
以AI为核心+单次规划调用能力 |
可在目标范围内自主推理与规划 |
能理解并适应多样化输入 |
可利用已学知识,无自主学习 |
能进行单次规划并执行,可调用工具完成任务,但不能自主评估结果并迭代优化方案 |
当任务未完成或出现异常时需人类监督矫正,非必须持续参与 |
DeepSeek-R1、CoT推理模型、Function Calling |
S3 |
Autopilot智能体 |
以AI为核心+自我评估反思机制 |
高度自主决策,可处理复杂目标拆解 |
能感知环境变化并调整计划 |
任务内反思与迭代改进 |
具备完整的规划-执行-评估-调整闭环,能在单个任务内自主反思并调整方案直至达成目标 |
仅需设定目标和边界 |
AutoGPT、Manus等自主执行系统、带反思机制的任务型智能体 |
S4 |
离线自主学习智能体 |
AI核心+结构化离线学习系统 |
全面自主决策,可处理开放性问题 |
能全面感知环境并建立环境模型 |
可通过离线批量方式自我提升 |
除任务执行闭环外,还具备基于历史经验的学习闭环,可通过离线批量方式提升自身能力 |
仅需提供学习资源和方向 |
带RLHF的模型、周期性自我提升系统、SFT/LoRA微调架构 |
S5 |
在线自主学习智能体 |
AI核心+实时适应学习系统 |
完全自主决策,可设定和调整自身目标 |
能感知复杂环境并持续适应变化 |
实时学习与模型自我演化 |
具备实时自适应闭环系统,能在执行过程中持续学习并动态调整自身模型,形成持续进化闭环 |
最小人类干预,伙伴式协作 |
Meta-learning系统、动态神经网络、自适应演化架构 |
系统分级应用说明
多级别智能体系统的评判标准
- 主导功能原则:系统的级别主要由承担核心功能的智能体级别决定。例如,一个以S4级自主学习模型,但由S2级规划组件控制的系统,其整体表现可能受限于S2级组件的能力局限,通常应评级为S2或S2+。除非设计了特殊机制使S4级组件能够提升或部分替代S2级组件的规划功能,才可能提升整体级别。
- 瓶颈识别原则:系统中关键决策路径上的最低级智能体通常会成为系统性能的瓶颈。如果S4级智能体必须依赖S2级规划组件来完成关键决策,则系统整体表现更接近S2。
- 协同增强效应:高级智能体对低级组件的有效协调可能提升整体系统表现。例如,S3智能体能够有效指挥多个S1组件时,系统整体功能可能超出单个S3智能体的能力范围。
- 功能权重评估:根据各组件在系统中的重要性和使用频率分配权重,按加权平均确定系统级别。核心决策组件应获得较高权重。
快速分级评估指南
- 核心能力识别:首先识别产品的核心功能是否具有自主决策、环境适应、学习进化等能力。
- 闭环程度检测:
- 产品是否能自主完成任务而无需人工干预?
- 是否能根据执行结果自我调整?
- 是否具备学习机制?
- 人类参与度评估:
- S0-S1:人类需要预设所有路径
- S2:人类需要在任务异常时介入
- S3-S5:人类主要提供目标和边界,较少直接干预
- 实例对比法:将您的产品与表中的技术实现示例进行对比,找到最相似的实现方式。
- 渐进式问题确认:
- 产品是否包含AI组件?(否→S0)
- 产品是否能超出预设路径行动?(否→S1)
- 产品是否能自主完成完整任务闭环?(否→S2)
- 产品是否能从经验中学习?(否→S3)
- 产品学习是实时在线还是离线批量?(离线→S4,在线→S5)
使用案例示例
混合系统评估: 一个集成了S4级自主学习模型,但由S2级规划组件控制的系统,其整体表现可能受限于S2级组件的能力局限,通常应评级为S2或S2+。除非设计了特殊机制使S4级组件能够提升或部分替代S2级组件的规划功能,才可能提升整体级别。
边界案例: 如果一个智能体在某些维度达到高级别要求,但在其他维度表现较弱,应以较弱维度作为主要评判依据。例如,具备强大环境感知能力但缺乏反思迭代机制的系统应归类为S2,而非S3。
这个分级系统旨在提供一个框架,帮助开发者和用户理解不同智能体的能力差异,并为智能体系统的设计和评估提供参考标准。随着技术发展,这一分级系统也可能需要进一步调整和完善。