跳到正文

智能体工具:超越 Claude Code

Claude Code 是一个工具,所属领域自 2024 年以来已大幅扩展。数十个智能体框架、自主编程工具和多智能体系统相继问世,各有不同的权衡取舍。本页梳理该领域全貌,帮助你判断何时选用 Claude Code,何时其他工具更合适。

本页涵盖内容:终端编程智能体、自主编程工具、多智能体编排框架与智能体编排工具。Claude Code 自身的多智能体能力(智能体团队、事件驱动工作流、编程式使用)另有专页记录,行文中有相关链接。

本页不涵盖内容:基于图形界面的 AI 编程 IDE(Cursor、Windsurf、Cline),详见 「AI 生态系统 §6」。多 Claude 编排工具(Gas Town、multiclaude、Conductor 桌面应用)详见「第三方工具:多智能体编排」。


能力谱系

智能体工具处于从交互式到自主式的连续谱系中:

Plain
交互式结对编程
  Claude Code, Codex CLI, Aider, Goose
        |
  Hermes Agent(交互 + 计划调度 + 消息网关)
        |
自主问题修复
  SWE-agent, Devin, claude -p 在 CI 中运行
        |
多智能体框架(自行构建)
  CrewAI, LangGraph, AutoGen/MAF

交互式智能体:你保持在循环中,审批操作,实时调整智能体。最适合日常编码、调试和需求频繁变化的探索性工作。

自主智能体:你指派任务,等待结果返回。最适合描述清晰、边界明确的任务:修复这个 bug、实现这个规格、审查这个 PR。任务描述的质量比工具选择对输出质量的影响更大。

多智能体框架:用于构建自定义智能体系统的库,本身不是编程工具。你用 LangGraph 构建智能体,而非用它写代码。


第一节:终端编程智能体

这些工具做的事和 Claude Code 一样:运行在终端中,读取代码库,编写代码,执行命令。区别在于模型支持、计费模式和具体能力。


1.1 Codex CLI(OpenAI)

OpenAI 对 Claude Code 的直接回应。2025 年 4 月发布,用 Rust 构建,以 Apache 2.0 协议开源。

属性详情
GitHubopenai/codex
Stars86,200+(2026 年 5 月)
安装npm install -g @openai/codex
语言Rust(96%)
许可证Apache 2.0
版本v0.134.0(2026 年 5 月 26 日)
发布次数2025 年 4 月以来 800+ 次
贡献者400+

Codex CLI 是什么?

一款基于 OpenAI 模型家族的终端 AI 智能体,用于编写、编辑和运行代码。其架构与 Claude Code 高度相似:描述任务,智能体读取文件、进行修改、运行测试并迭代。主要区别在于模型提供商:Codex CLI 使用 GPT-4o、o3、o4-mini 等 OpenAI 模型,而非 Claude。

ChatGPT Pro 和 Team 订阅用户可在其计划内使用 Codex CLI,对于已购买 OpenAI 订阅的团队而言是零边际成本工具。

Claude Code 与 Codex CLI 对比

方面Claude CodeCodex CLI
模型仅限 Claude 3.5/4 系列GPT-4o、o3、o3-mini、o4-mini 及未来 OpenAI 模型
语言TypeScriptRust
许可证开源Apache 2.0
订阅Anthropic Claude Max(20-200 美元/月)OpenAI ChatGPT Pro/Team(20-30 美元/月)
MCP 支持原生,生态系统持续扩展兼容 MCP
发布节奏每周非常频繁(13 个月内 800+ 次发布)
记忆CLAUDE.md + 自动记忆AGENTS.md 惯例
Skills/Hooks完整系统兼容 agentskills.io 标准

何时选择 Codex CLI

适合已订阅 ChatGPT Pro 或 Team 且希望避免第二份订阅的用户。如果你在特定任务(推理、长上下文分析)上偏好 GPT-4o 或 o3,并希望使用原生支持这些模型的终端智能体,也是合适的选择。

不适合已经在 Claude Code 工作流、CLAUDE.md 文件和 Anthropic 特定模式上有大量投入的团队。在两个智能体环境之间切换的认知成本不容忽视。

快速开始

Bash
npm install -g @openai/codex
export OPENAI_API_KEY=sk-...
codex

OpenAI 的 Codex 文档 有详细安装说明。


1.2 Hermes Agent(前身为 OpenClaw)

截至 2026 年 5 月,GitHub 上 stars 最多的开源智能体框架。由 Nous Research 创建,该 AI 实验室以其 Hermes 系列微调模型著称。此前名为 OpenClaw,2025 年末在 Anthropic 恢复订阅支持后更名。

属性详情
GitHubNousResearch/hermes-agent
Stars170,000+(2026 年 5 月)
安装pip install hermes-agent 或 `curl -sSL install.hermes-agent.dev
语言Python(89%)、TypeScript(8%)
许可证MIT
版本v0.14.0(2026 年 5 月 16 日)
发布节奏每周(v0.10 4 月 16 日 → v0.14 5 月 16 日)
贡献者215+
创建者Nous Research(Teknium,@teknium1)

Hermes Agent 是什么?

一款自我改进的终端智能体,支持 200+ 个 LLM 提供商,可在任何平台运行,并接入 22 个消息平台(Telegram、Discord、Slack、WhatsApp、Signal、Teams、LINE、SimpleX 等)。其核心特性是学习循环:完成任务后,Hermes 分析有效方法,提取可复用模式,并自动生成 Skills(技能模块)。每次会话都使智能体在特定工作流上略微提升。

OpenClaw 历史有两方面值得关注。其一,迁移路径清晰:hermes-agent 在设置时导入 OpenClaw 的记忆、Skills(技能模块)和配置,切换成本较低。其二,2026 年初的 Anthropic 计费争议专门针对 OpenClaw/Hermes 在 Claude Max 订阅上使用时未正确归因编程计费。Anthropic 现已明确将 Hermes 纳入编程计费范畴(参见「计费:编程式 vs 交互式」)。

Claude Code 与 Hermes Agent 对比

方面Claude CodeHermes Agent
模型仅限 Claude200+ 提供商(OpenRouter、OpenAI、Anthropic、HuggingFace、本地)
自我改进每次会话全新开始从重复模式自动生成 Skills(技能模块)
消息接入终端 + IDE终端 + 22 个聊天平台
定时计划Routines(Anthropic 云端)内置 cron,本地运行
计费订阅或 API直接向 LLM 提供商付费
智能体 SDKAnthropic 专属ctx.llm 插件支持任意提供商
Skills(技能模块)SKILL.md 系统Skills Hub(agentskills.io)+ 自动生成
记忆CLAUDE.md + 自动记忆跨会话持久记忆,由智能体维护

何时选择 Hermes Agent

模型无关性是最有力的论据。如果你希望在代码生成时使用 Claude、在特定推理任务时使用 GPT-4o、在离线工作时使用本地模型(通过 Ollama),Hermes 可在单一智能体中处理所有情况,Claude Code 做不到这一点。

自我改进循环是真正的差异化特性。在同一代码库上使用 30-40 次会话后,Hermes 会积累针对项目模式的 Skills(技能模块)库。这种复利效应是静态 CLAUDE.md 文件无法达到的,尽管比较并不简单——CLAUDE.md 是人工编写且有意为之的,而 Hermes Skills(技能模块)是机器生成的。

22 个消息平台集成对于希望通过 Telegram 或 Slack 而非终端与智能体交互的团队很实用,对大多数开发者而言并非优先需求,但对某些工作流至关重要。

不适合深度投入 Anthropic 生态系统(Claude Max 订阅、Routines、Agent SDK)的用户。使用 Claude 模型运行 Hermes 会消耗编程计费额度,意味着 200 美元/月 Max 订阅的额度同时被交互式终端使用和 Hermes API 调用消耗。请综合考量。

快速开始

Bash
pip install hermes-agent

# 或一键安装
curl -sSL install.hermes-agent.dev | sh

# 从 OpenClaw 迁移
hermes import --from openclaw

# 启动
hermes

1.3 Aider

原版终端 AI 结对编程工具。由 Paul Gauthier 在 Claude Code 出现之前的 2023 年发布,Aider 确立了许多后续工具沿用的惯例:直接文件编辑、自动 git 提交、多文件上下文窗口。

属性详情
GitHubAider-AI/aider
Stars45,400+(2026 年 5 月)
安装pip install aider-install && aider-install
语言Python(80%)
许可证Apache 2.0
创建者Paul Gauthier(paul-gauthier)
PyPI 下载量530 万+

Aider 是什么?

一款基于 Python 的编程助手,可编辑本地 git 仓库中的文件并自动提交附带描述性信息的变更。核心特点:通过 LiteLLM 支持近乎通用的模型,涵盖 GPT-4o、Claude 3.5/4、Gemini、Ollama 及数十个其他提供商。Aider 推广了"整文件"和"差异对比(diff)"编辑格式,影响了后续智能体处理文件修改的方式。

SWE-Bench 基准测试的成绩轨迹很能说明问题:Aider 在 2024-2025 年期间数月内位居 SWE-Bench Verified 榜首,后被支持更大上下文的模型和更强大的智能体超越。这一基准记录确立了其作为严肃工具而非便利封装的声誉。

Claude Code 与 Aider 对比

方面Claude CodeAider
模型支持仅限 ClaudeGPT-4o、Claude、Gemini、Ollama、50+ 提供商
Git 集成原生(读取 .git,运行 git)深度集成(自动提交、提交信息、blame 上下文)
架构Anthropic 专有开源,底层使用 LiteLLM
文件编辑基于工具(编辑工具、写入工具)整文件或差异对比(diff)格式发送给模型
网页搜索通过 MCP非原生(需要插件)
智能体循环完整(多轮,工具使用)完整(architect 模式下自动接受变更)
发布节奏每周每月(最近:v0.86.0,2025 年 8 月)

最后发布日期(2025 年 8 月)值得注意。Aider 仍在维护且功能正常,但相对于 Claude Code 和 Hermes,发布节奏有所放缓。这本身不是警示信号,但如果你需要最新特性,值得留意。

何时选择 Aider

最佳场景:你需要在成熟、经过实战检验的工具中支持多模型,且不想承担 Hermes 的运维开销。Aider 比 Hermes 配置更简单,占用资源更少,有数年积累的社区文档。

也适合对 git 规范有严格要求、希望每次 AI 变更都明确提交并附清晰信息的团队。Aider 的自动提交行为比 Claude Code 更激进(Claude Code 默认在提交前询问)。

快速开始

Bash
pip install aider-install && aider-install

# 使用 Claude
export ANTHROPIC_API_KEY=sk-ant-...
aider --model claude-sonnet-4-6

# 使用 GPT-4o
export OPENAI_API_KEY=sk-...
aider

完整模型列表和配置选项参见 aider.chat


1.4 Goose(AAIF/Block)

通用型智能体,不仅限于编程工具。最初由 Block(前身为 Square)构建,后转移至 Linux 基金会旗下的 AAIF(智能体 AI 基础设施基金会)以实现长期治理中立。

完整介绍见 「AI 生态系统 §11.1:Goose」。

快速数据:45,900+ stars(2026 年 5 月),Rust(63%)+ TypeScript(30%),Apache 2.0,每日活跃开发,368+ 贡献者。与 Claude Code 的核心区别:提供商无关(Claude、GPT、Gemini、Ollama、15+ 提供商),基于 recipe 的可复用工作流,以及异构子智能体团队(每个子智能体可运行不同模型)。


第二节:自主编程智能体

这些工具在你不旁观的情况下运行。你给出任务描述(GitHub issue、规格说明、bug 报告),它们产出一个 pull request。交互模式与终端智能体根本不同:迭代性更少,更像向同事分配工作。


2.1 Devin(Cognition)

第一款商业化完全自主软件工程师。闭源、云端托管、企业定价。

属性详情
网站devin.ai
类型云端 SaaS,专有
定价Core:20 美元/月(按 ACU 付费);Team:500 美元/月(250 ACU);Enterprise:定制
发布时间2024 年
估值250 亿美元(2026 年 4 月融资)
重要收购Windsurf AI 原生 IDE(2025 年 7 月)
企业客户高盛、微软、Palantir、花旗、戴尔

Devin 是什么?

一款在云端 Linux 虚拟机中运行、配备专属 shell、代码编辑器和浏览器的自主软件工程师。Devin 规划方案、编写代码、运行测试、读取错误信息,并迭代直至任务完成或遇到阻碍。主要交互界面是 Slack:你发送消息"修复 issue #342",Devin 完成后开 PR。

计费单位为 ACU(智能体计算单元),1 ACU 约对应 15 分钟智能体工作时长。复杂功能可能消耗 10-20 ACU,简单 bug 修复可能用 1-3 ACU。

Claude Code 与 Devin 对比

方面Claude CodeDevin
执行环境你的本地机器云端 Linux 虚拟机(沙盒)
交互模式交互式(你在旁观察)异步(分配后等待结果)
状态会话范围内任务全程持久化
定价订阅制(20-200 美元/月)按任务 ACU 计费(约 0.07-0.15 美元/ACU)
谁来驱动你(结对编程)智能体(自主运行,你审查)
任务描述对话式,迭代式前置(规格越清晰,输出越好)
浏览器访问通过 MCP(Playwright)内置,原生支持
代码审查集成你在 IDE 中审查Devin 开 PR,你在 GitHub 上审查

何时选择 Devin

Devin 最适合任务描述清晰、边界明确、无需持续判断的场景。重构特定模块、实现已有文档的 API 端点、修复已知根本原因的回归:这些是 Devin 的任务。设计新系统架构、调试晦涩的生产问题、编写依赖代码库隐性上下文的代码:这些需要更多交互式循环。

500 美元/月的 Team 计划(250 ACU)成本不低。在这个价位上,你付费购买的是异步价值:开发者不必等待智能体输出而被阻塞、智能体并行处理多个任务、无需上下文切换。如果你的瓶颈是开发者注意力而非原始吞吐量,Devin 值得计算投入产出比。如果你想保持在循环中并交互式迭代,200 美元/月的 Claude Code 提供更高的性价比。

Windsurf 收购(2025 年 7 月)表明 Cognition 正向完整开发者环境迈进,而不仅仅是后台智能体。关注将交互式编程(Windsurf IDE)与自主任务执行(Devin)融合在同一产品中的工作流。


2.2 SWE-agent(普林斯顿)

专为从 issue 描述单独解决 GitHub issues 而设计的学术型智能体。NeurIPS 2024 论文,由普林斯顿 NLP 组和斯坦福合作发布。

属性详情
GitHubSWE-agent/SWE-agent
Stars19,300+(2026 年 5 月)
论文NeurIPS 2024
许可证MIT
语言Python(95%)
版本v1.1.0(2025 年 5 月)
维护者普林斯顿 NLP 组 + 斯坦福

SWE-agent 是什么?

一条智能体流水线:接收 GitHub issue URL 和模型,尝试复现 bug、编写修复方案并生成补丁。其架构使用智能体-计算机接口(ACI)层,将终端、文件编辑和测试运行抽象为一组一致的命令,无论底层环境如何。这一 ACI 设计是主要学术贡献:它表明智能体性能与环境暴露信息的质量高度相关,而非仅与模型的原始能力相关。

SWE-agent + Claude 3.7 在 SWE-Bench Full(开放权重)上保持最先进水平。这一基准是关键背景:SWE-Bench 衡量智能体端到端解决真实 GitHub issues 的百分比,SWE-agent 正是以该基准为优化目标而设计的。

何时选择 SWE-agent

主要用于学术和研究场景。如果你想对不同模型在真实 GitHub issues 上的表现进行系统评估,SWE-agent 是正确工具,因为它具备生产工具所欠缺的可复现性基础设施(轨迹记录、评估框架、配置 YAML)。

对于生产级批量 issue 解决,Devin 的云端沙盒和更好的错误恢复使其更具实用性。SWE-agent 需要你自行设置环境并手动处理失败。

研究价值是真实的:构建智能体系统的团队可使用 SWE-agent 的轨迹数据(由 issue 解决运行生成)来微调模型。Nous Research 的 SWE-agent-LM-32b(开放权重,SWE-Bench 开放模型最先进水平)就是在 SWE-agent 生成的轨迹上训练的。

Bash
pip install swe-agent

# 在 GitHub issue 上运行
sweagent run \
  --agent.model.name=claude-sonnet-4-6 \
  --env.repo.github_url=https://github.com/org/repo \
  --problem_statement.github_url=https://github.com/org/repo/issues/123

2.3 无头模式下的 Claude Code

Claude Code 自身的自主模式:claude -p "任务" 以非交互方式运行单条指令后退出。结合 CI/CD,它成为一个自主智能体,可由 GitHub 事件触发、通过 Routines 按计划运行,或通过 Agent SDK 以编程方式处理任务。

自 2026 年 6 月 15 日起,这属于编程计费范畴。 参见「计费:编程式 vs 交互式」了解额度限制和超额费率。

常用模式:

Bash
# 单任务,完成后退出
claude -p "为 src/auth.ts 编写测试,目标覆盖率 80%"

# GitHub Actions:由 issue 标签触发
# 完整模式见 workflows/event-driven-agents.md

# Agent SDK:带工具的编程式使用
# 见 ai-ecosystem.md §14(Claude 托管智能体)

交叉引用:

  • 事件驱动模式:「workflows/event-driven-agents.md」
  • 智能体团队:「workflows/agent-teams.md」
  • 托管智能体(云端):「ai-ecosystem.md §14」

第三节:多智能体框架

这些不是编程工具,而是从零开始构建自定义多智能体应用的库:营销流水线、研究自动化、文档处理、客服机器人。如果你正在构建内部含有 AI 智能体的产品,而非作为开发者希望智能体为你写代码,才应使用它们。

与 Claude Code 的关系:Claude(模型)可以是这些框架所构建智能体的 LLM 之一。这些框架本身并不与 Claude Code 竞争,就像 Express.js 不与浏览器竞争一样。


3.1 CrewAI

基于角色的多智能体编排工具。对于希望按职能(研究员、撰稿人、编辑)定义智能体并让其在结构化任务上协作的团队,是主流选择。

属性详情
GitHubcrewAIInc/crewAI
Stars52,300+(2026 年 5 月)
语言Python(99%)
许可证MIT
版本v1.14.5(2026 年 5 月 18 日)
执行次数报告显示超过 20 亿次智能体任务执行
下载量2700 万+
企业客户150+

CrewAI 是什么?

你定义具有角色、目标和背景故事的智能体("团队"),定义任务并分配给智能体。CrewAI 处理路由:顺序(A 完成后 B 开始)、并行(A 和 B 同时运行)或层级(管理者智能体委派给专家)。每个智能体可使用工具,包括 MCP 服务器和网页搜索,支持多个 LLM 提供商(Claude、GPT、Gemini、Ollama)。

它区别于 LangChain(通常被拿来对比的老框架)之处在于:完全不依赖 LangChain。是独立的 Python 库。

何时使用 CrewAI

适合能够以人类角色描述工作流的团队。如果你能说出"我希望有一个研究员收集信息、一个撰稿人起草、一个编辑润色",CrewAI 负责编排和智能体间的通信。你编写智能体定义,而非编排代码。

当工作流有复杂条件分支、需要跨故障持久执行,或需要精细控制状态在智能体间传递时,避免使用 CrewAI。LangGraph 更适合这些场景。

Python
from crewai import Agent, Task, Crew, Process

researcher = Agent(
    role="Technical Researcher",
    goal="Find accurate technical information",
    backstory="Expert at synthesizing documentation and research papers",
    llm="claude-sonnet-4-6"
)

writer = Agent(
    role="Technical Writer",
    goal="Write clear, accurate documentation",
    backstory="Experienced at translating technical concepts",
    llm="claude-sonnet-4-6"
)

task = Task(
    description="Research and document the new auth API endpoints",
    expected_output="Markdown documentation with examples",
    agent=writer,
    context=[research_task]  # researcher 的输出喂给 writer
)

crew = Crew(agents=[researcher, writer], tasks=[task], process=Process.sequential)
result = crew.kickoff()

3.2 LangGraph

LangChain 出品的基于图的智能体编排工具。比 CrewAI 更底层,更灵活,更适合复杂的有状态工作流。

属性详情
GitHublangchain-ai/langgraph
Stars33,100+(2026 年 5 月)
语言Python(99%)+ JS 版本可用
许可证MIT
版本v1.2.2(2026 年 5 月 26 日)
生产用户Klarna、Replit、Elastic

LangGraph 是什么?

一个将工作流建模为有向图的智能体构建框架,图中有节点(智能体步骤)和边(转换)。核心原语:状态(跨所有节点持久化的类型化字典)、条件边(基于状态的分支)和持久化(检查点机制使中断的工作流从最后一个检查点恢复,而非从头开始)。人机协作是一等模式:可在任意节点暂停执行,等待人类决策后再继续。

LangGraph 不自带智能体,你定义工作流逻辑并插入任意 LLM。框架确保状态转换可预测、故障可恢复,工作流可逐步调试。

何时使用 LangGraph

适合智能体需要在故障中存活、基于运行时条件分支,或在特定决策点需要人工审批的场景。示例:当智能体检测到安全相关变更时上报给人类的代码审查流水线;在每个耗时步骤后设置检查点的数据处理工作流(重启时不重新处理已完成阶段);遇到模糊信源时暂停等待人工指导的多步骤研究智能体。

学习曲线比 CrewAI 陡。工作流复杂度足够高时才值得投入。

Python
from langgraph.graph import StateGraph, END
from typing import TypedDict

class AgentState(TypedDict):
    messages: list
    task_complete: bool

graph = StateGraph(AgentState)
graph.add_node("agent", call_agent)
graph.add_node("tools", call_tools)
graph.add_conditional_edges("agent", should_continue, {"continue": "tools", "end": END})
graph.add_edge("tools", "agent")
graph.set_entry_point("agent")

app = graph.compile(checkpointer=MemorySaver())  # 持久执行

LangSmith(LangChain 的可观测性产品)原生集成,用于调试和追踪智能体运行。


3.3 AutoGen / Microsoft Agent Framework

微软的多智能体框架,正处于从原始 AutoGen 库(2025 年 9 月起进入维护模式)向 Microsoft Agent Framework(MAF)的过渡期,MAF 将 AutoGen 和 Semantic Kernel 合并为一个 SDK。

属性详情(MAF)
GitHubmicrosoft/agent-framework
Stars10,800+(MAF,活跃)
旧版 GitHubmicrosoft/autogen(58,400 stars,2025 年 9 月起维护模式)
语言Python + C# + TypeScript
许可证MIT
版本python-1.6.0(2026 年 5 月 22 日)
生产版本v1.0(2026 年 4 月)

Microsoft Agent Framework 是什么?

MAF 是 AutoGen(Python,对话式多智能体)和 Semantic Kernel(C# + Python,函数调用抽象)的合并。结果是一个跨运行时框架:Python 智能体可与 .NET 智能体协调,全部由同一消息层支撑。它实现了 A2A(智能体间)协议(微软对智能体互操作性的贡献),并支持 MCP。

AutoGen 的 star 数量(58,400)反映了其历史声誉。AutoGen 开创了"可对话智能体"模式——智能体在结构化对话循环中相互交谈。即便实现随时间演进,这一模式仍是框架中占主导地位的思维模型。

何时使用 MAF

非常适合微软生态系统团队:.NET + Python 混合开发、Azure 部署、已有 Semantic Kernel 的企业环境。跨运行时特性是真实的:Python 智能体可调用以 .NET Semantic Kernel 函数实现的工具。

对于没有现有 .NET 投入的团队吸引力较弱。如果你是纯 Python 栈,CrewAI 或 LangGraph 有更大的社区和更多教程。


3.4 Anthropic Agent SDK

Anthropic 自家的以编程方式构建多智能体系统的框架,有别于 Claude Code。详见 「AI 生态系统 §14:Claude 托管智能体」。

操作性区别:Claude Code 是你作为开发者使用的成品;Agent SDK 是你用来构建内部含有 Claude 的产品的库。Agent SDK 通过 Messages API 处理工具使用、上下文管理和多智能体协调。它同样属于编程计费范畴(见上方计费交叉引用)。


第四节:智能体编排工具

位于智能体框架之上的工具,管理智能体在规模化场景下的部署、路由和运维。不要与多 Claude 编排工具(Gas Town、multiclaude)混淆,后者在「第三方工具」中介绍。


4.1 Conductor(Gemini CLI 方法论)

一种开发方法论,而非产品。"Conductor"最初是 Gemini CLI 的扩展,强制执行"上下文 → 规格 → 计划 → 实现"工作流:在编写任何代码之前,智能体先创建并提交规格文档,然后是计划文档,再按两者进行实现。

属性详情
GitHubgemini-cli-extensions/conductor
Stars3,600+(2026 年 5 月)
许可证Apache 2.0

该方法论已通过社区仓库移植到 Claude Code:lackeyjb/claude-conductorryanmac/code-conductor 和 wshobson/agents 插件市场。这些仓库自身没有显著吸引力,但模式本身(先写规格再写代码,提交文档)直接对应 Claude Code 的「规格优先开发工作流」。


4.2 Conductor(Microsoft CLI)

与 Gemini 版本完全独立的项目。一款以 YAML 为核心的 CLI,用于确定性多智能体工作流,路由逻辑是静态配置,而非 LLM 决策。

属性详情
GitHubmicrosoft/conductor
Stars158(2026 年 5 月,全新项目)
许可证MIT
发布时间2026 年 5 月 14 日(微软开源博客)

核心理念:在 YAML 中定义智能体工作流(哪些智能体顺序运行、哪些并行、每个使用什么模型、各阶段之间传递什么),以确定性方式执行。编排循环中无 LLM,只有智能体步骤中有。支持 GitHub Copilot SDK 和 Anthropic Agent SDK 作为提供商。仍处于极早期阶段(158 stars,撰写时刚发布数天),但由微软开源团队支持。


4.3 Hermes Control Room

社区模板,作者为 Shann(@shannhk,里斯本),用于在 VPS 上管理 Hermes 智能体集群。非 Nous Research 项目。

属性详情
GitHubshannhk/hermes-agent-control-room
Stars474(2026 年 5 月)
时间12 天(截至 2026 年 5 月 27 日)
类型模板/文档,非可执行软件

概念:包含治理文档、已部署智能体注册表、常见操作 runbook 和 8 个内置 Hermes Skills(技能模块)的文件夹结构,Skills(技能模块)涵盖 VPS 配置、任务路由、备份、安全审计和 cron 规划。智能体共享基于文件系统的任务总线(每个专业领域有 inbox/working/outbox/archive)。编排者读取 control room 文档了解智能体能力,通过总线路由任务,并综合结果。

对于运行 3 个以上 Hermes 智能体的任何人,这一模式都是合理的。但该仓库太新(7 次提交),不建议作为生产依赖。关注 v1.0 版本的运维强化。


第五节:决策框架

完整对比矩阵

工具开源Stars模型支持模式语言费用
Claude Code是(TS)112K仅限 Claude交互式 + 无头模式TypeScript20-200 美元/月
Codex CLI86KGPT-4o、o3、o4-mini交互式 + 无头模式Rust含在 ChatGPT Pro/Team 中
Hermes Agent是(MIT)170K200+ 提供商交互式 + cron + 消息Python按 LLM 调用付费
Aider45K50+ 提供商交互式Python按 LLM 调用付费
Goose46K15+ 提供商交互式 + 子智能体Rust按 LLM 调用付费
DevinN/A专有完全自主专有20-500 美元/月
SWE-agent是(MIT)19K任意(Claude、GPT...)自主(issue → PR)Python按 LLM 调用付费
CrewAI是(MIT)52K50+ 提供商框架(自行构建)Python框架免费
LangGraph是(MIT)33K任意框架Python/JS框架免费
AutoGen/MAF是(MIT)58K/11K任意框架Python/C#/TS框架免费

情境工具选择指南

情境推荐
日常编码,已订阅 Claude MaxClaude Code
日常编码,已订阅 ChatGPT ProCodex CLI
日常编码,希望用任意模型Hermes Agent 或 Aider
日常编码,通用型智能体Goose
分配任务,等待 PR 结果Devin(500 美元/月)或 CI 中的 claude -p
自主修复 GitHub issues,研究/基准测试SWE-agent
编排多个 Claude Code 实例Gas Town、multiclaude、Ruflo(见「第三方工具」)
构建基于角色的多智能体产品CrewAI
构建有状态、可恢复的工作流LangGraph
在 .NET + Python 的微软技术栈中构建AutoGen/MAF
Anthropic 生态系统,云端托管智能体Anthropic Agent SDK(见 「ai-ecosystem.md §14」)
在 VPS 上管理 Hermes 智能体集群Hermes Control Room 模式

模型锁定问题

在 Claude Code、Codex CLI、Hermes、Aider 和 Goose 之间做选择时,最核心的澄清问题是:工具是否需要与唯一一个模型提供商绑定,还是支持多个?

如果你致力于 Claude 和 Anthropic 生态系统(订阅、Routines、Agent SDK、CLAUDE.md 工具链),Claude Code 毫无疑问是正确选择。集成原生且来自 Anthropic 的功能迭代速度很快。

如果你需要模型灵活性(本地模型处理敏感代码、更便宜的模型处理常规任务、特定模型用于基准测试),Hermes Agent 支持最广泛的范围且自动化程度最高。Aider 和 Goose 是体量更小的简单替代方案。

如果你的团队以 OpenAI 为主且已为 ChatGPT Pro 付费,Codex CLI 无需额外增量成本。

自主性与控制的权衡

更高的自主性意味着智能体可以在你不旁观的情况下完成更多工作,但也意味着在模糊任务上更容易偏离方向。合适的自主性级别取决于任务的描述清晰程度,而非工具的"能力强弱"。

Claude Code 无头模式(claude -p)和 SWE-agent 给你受控的自主性:你设置任务,智能体运行,你审查输出。Devin 给你最大化的自主性,配备云端沙盒:智能体拥有完整的 Linux 环境,可以采取你未预料到的行动。权力越大,合并前所需的审查越多。

交互式智能体(Claude Code 终端、Hermes、Aider、Goose)给你实时控制权。你旁观智能体思考,在它走偏时及时纠正,并批准破坏性操作。对于需求在会话中途变化的探索性工作,交互式方式尽管看起来更费力,实际上往往比自主方式更快。


交叉引用

  • 多 Claude 编排(Gas Town、multiclaude、Ruflo、Conductor 桌面应用):「第三方工具:多智能体编排」
  • Goose 深度解析:「AI 生态系统 §11.1」
  • 使用 Anthropic SDK 构建自定义智能体:「AI 生态系统 §14」
  • Claude Code 自身的智能体团队模式:「workflows/agent-teams.md」
  • 事件驱动自主模式:「workflows/event-driven-agents.md」
  • 编程计费(Hermes、Codex CLI、第三方框架):《Claude Code:从入门到大师》:计费分类
  • 智能体框架工程(理论框架):「core/agent-harness.md」
  • 编程智能体对比矩阵(23 款工具,11 项标准):coding-agents-matrix.dev

来源:飞书 · AI Spark 知识库 | 原文(最新版):https://lcnniolukk80.feishu.cn/wiki/Slh5wuMijitdlmkr9tEcOEkOnC2 | 归档:2026-06-04