$catMANUAL||~27 min

Qwen-AgentWorld 发布:AI Agent 终于有了自己的"世界模型",这次阿里是真的猛

advertisement

Qwen-AgentWorld 发布:AI Agent 终于有了自己的"世界模型",这次阿里是真的猛

昨天在 Hacker News 上刷到一个帖子,Qwen 团队发了个新东西叫 AgentWorld,标题写的是 "Language World Models for General Agents"。我第一反应是——又是新概念?AI Agent 领域三天两头出新名词,什么 Agentic RAG、Agentic Workflow、Tool Use,我已经麻了。

但点进去看完论文和 GitHub 之后,我得说:这东西是真的有东西。

简单来说,Qwen 团队搞了一个能让 AI Agent 在"脑子里"模拟真实环境的世界模型。不是那种玩具级别的 demo,是覆盖了 MCP、搜索、终端、SWE、Android、Web、OS 七个领域的正式版。而且他们开源了 35B 参数的版本,MoE 架构,激活参数只有 3B,跑起来并不算太重。

我花了一下午把论文和代码翻了个遍,这篇文章就聊聊这东西到底是什么、怎么做到的、对做 AI Agent 开发的人意味着什么。

什么是"语言世界模型"?

先说说"世界模型"这个概念。在 AI 领域,世界模型(World Model)不是什么新东西,强化学习里老早就有了。核心思想是:让 AI 在一个模拟环境里先练手,再去真实环境干活。就像你打游戏之前先看攻略视频,脑子里有个"这个怪会怎么出招"的预期。

但以前的世界模型主要用在游戏和机器人上(比如 MuZero 下围棋、自动驾驶仿真),因为那些环境的规则是明确的、有限的。

问题是——AI Agent 面对的环境太复杂了。终端命令的输出、网页的 DOM 变化、API 返回的 JSON、代码文件的修改……这些东西用传统的状态机或规则引擎根本模拟不了。

Qwen-AgentWorld 的思路是:用语言模型本身来当世界模型。

你给它一个当前状态(比如"你在终端里执行了 pip install torch"),它能预测下一步环境会变成什么样("安装进度条...成功安装 torch 2.6.0")。而且不是简单的接龙,是通过长链推理(long chain-of-thought)来模拟环境的变化过程。

说白了,就是让大模型学会"脑补"——Agent 不用真的去执行每一条命令,在脑子里过一遍就知道结果对不对。这在训练阶段能省大量真实环境交互的成本。

举个更具体的例子。假设你让 Agent 帮你在终端里装一个 Python 包,正常流程是:Agent 输出命令 → 真实终端执行 → 返回结果 → Agent 判断下一步。如果有世界模型,流程变成:Agent 输出命令 → 世界模型模拟结果 → Agent 直接判断。真实终端根本不用动。

这对训练阶段的意义巨大。训练一个 Agent 可能需要跑几百万次环境交互,每次都要等真实环境响应,时间成本和 API 费用加起来是天文数字。用世界模型做模拟器,速度能快几十倍,成本也能降一到两个数量级。

不过这里有个关键问题:模拟结果得靠谱。如果世界模型的预测跟真实环境差太远,Agent 学到的就是错误的环境动态,反而越练越差。所以 Qwen 团队在训练世界模型的时候花了大量精力在"模拟准确度"上,后面的 RL 阶段主要就是在做这件事。

Qwen-AgentWorld 到底做了什么

Qwen 团队这次发了两个东西:

模型:Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B。35B 版本已经开源,MoE 架构,总共 35B 参数但激活参数只有 3B,支持 256K 上下文。这个参数量在本地跑需要一些显存,但用量化版本的话消费级显卡也不是不能搞。

基准测试:AgentWorldBench,覆盖 MCP、搜索、终端、SWE、Android、Web、OS 七个领域。数据来自 5 个前沿模型在 9 个已有 benchmark 上的真实交互轨迹。

让我先把性能数据摆出来,因为这才是最能说明问题的:

  • 总体得分:Qwen-AgentWorld-397B-A17B 拿到 58.71 分,超过了 GPT-5.4 的 58.25
  • MCP 领域:35B 版本 64.79,和 Claude Sonnet 4.6 的 70.00 还有差距,但已经超过了 DeepSeek-V4-Pro
  • 搜索领域:两个版本分别拿到 36.69 和 37.82,直接碾压所有竞品(GPT-5.4 才 37.26)
  • SWE 领域:397B 版本 68.49,超过 GPT-5.4 的 66.29

注意一个细节:原版 Qwen3.5-35B-A3B(没有世界模型训练)在这个 benchmark 上只有 47.73 分,加了世界模型训练之后直接跳到 56.39,涨了将近 9 分。这个提升幅度相当离谱。

让我把这些数据翻译成人话:

  • 35B 的小版本在 MCP 领域(工具调用)跟 Claude Sonnet 4.6 打了个平手(64.79 vs 70.00),考虑到参数量差距,这已经很强了
  • 搜索领域是亮点中的亮点,397B 版本 37.82 分直接拿了第一,连 GPT-5.4 都压了一头
  • SWE 领域 397B 版本 68.49,比 GPT-5.4 高了 2 个多点,说明写代码改 bug 这种任务世界模型确实有帮助
  • 但 Web 和 Android 领域提升不大,这两个领域涉及到视觉理解(看网页、看手机屏幕),纯文本的世界模型可能还不够

有个数据特别值得注意:同样是 35B 参数,原版 Qwen3.5 和 AgentWorld 版本的差距在不同领域差异很大。搜索领域涨了 10.71 分,但 Android 领域只涨了 4.99 分。这说明世界模型训练对不同类型任务的收益是不一样的——越是需要"预测下一步会发生什么"的任务,世界模型的帮助越大。

七个领域到底覆盖了什么

这七个领域不是随便选的,每一个都对应 Agent 实际干活时会遇到的场景:

  • MCP:Model Context Protocol,就是 Agent 调用各种工具的协议。Agent 需要知道工具返回什么、怎么处理错误
  • Search:搜索场景,Agent 需要理解搜索结果、提取信息、判断相关性
  • Terminal:终端操作,执行命令、读输出、处理报错
  • SWE:软件工程,改代码、跑测试、修 bug
  • Android:手机端操作,点击、滑动、输入
  • Web:网页交互,填表单、点按钮、抓数据
  • OS:操作系统层面的交互

覆盖面相当全。我之前用过的 Agent 框架(比如 LangGraph、CrewAI)基本上只擅长其中一两个领域,遇到跨领域任务就得手动编排。Qwen-AgentWorld 试图用一个模型搞定所有场景,野心不小。

这里面最有意思的是 MCP 领域。MCP(Model Context Protocol)是现在 AI Agent 生态里的核心协议,Agent 调用工具基本都走 MCP。一个 Agent 能不能在 MCP 场景下表现出色,直接影响它能不能真正干活。Qwen-AgentWorld 在 MCP 领域拿到 64.79 分(35B 版本),虽然不如 Claude Sonnet 4.6 的 70.00,但已经是非常可用的水平了。

我之前写过好几篇关于 MCP 的文章,从 MCP 协议本身到 MCP 服务器的安全问题都聊过。一个反复出现的痛点是:Agent 调用 MCP 工具的时候经常"不知道下一步该干什么"。比如你让它调用一个文件系统 MCP 工具,它可能不知道先 ls 看看目录结构,上来就 cat 一个不存在的文件。世界模型的思路是让 Agent 先在脑子里"演练"一遍调用过程,搞清楚工具的输入输出格式和可能的错误,再真正执行。这个方向我觉得是对的。

三阶段训练:怎么把大模型变成世界模型

这部分是论文最核心的技术贡献。他们用了三个阶段来训练:

第一阶段:CPT(Continued Pre-Training)

在 Qwen3.5 的基础上继续预训练,但不是用普通的文本语料,而是用了超过 1000 万条真实环境交互轨迹。这些轨迹覆盖了上面说的七个领域。

关键点是:从 CPT 阶段开始就在训练"环境建模"能力,不是事后微调。论文里特别强调这是 "native world model"——环境建模是训练目标本身,不是附加任务。

这个设计思路我觉得挺聪明的。之前很多做法是在已有的通用模型上加一个环境模拟模块,等于是在模型外面套了个壳。Qwen 的做法是把环境知识直接灌进模型的"骨子里"。

第二阶段:SFT(Supervised Fine-Tuning)

用精心标注的数据来激活"下一状态预测"的推理能力。简单说就是教模型:给定当前状态和动作,正确预测下一个状态应该长什么样。

这一步的关键是数据质量。1000 万条轨迹里只有精选的部分被拿来做 SFT,确保模型学到的是正确的环境动态,而不是噪声。

第三阶段:RL(Reinforcement Learning)

用混合评分标准(rubric + rule rewards)来做强化学习,进一步打磨模拟的准确度。

这里有个很巧妙的设计:他们不只用规则奖励(比如"预测结果和真实结果是否一致"),还用 rubric 评分(更细粒度的质量评估)。这种混合奖励机制能让模型在"对"的基础上追求"好"。

打个比方,规则奖励就像考试的对错判断题,答案对了就得分。Rubric 评分更像是作文评分,不仅看对不对,还看写得好不好、逻辑清不清楚、有没有遗漏细节。

在环境模拟这个任务上,纯对错判断是不够的。比如 Agent 预测"执行 ls 命令后会显示 3 个文件",真实结果是 4 个文件——从规则上看完全错了。但如果预测的文件名里有 3 个是对的,而且排序方式和权限信息都猜对了,那这个预测其实挺有价值的。Rubric 评分能捕捉到这种"部分正确"的情况。

这种混合奖励机制在技术上实现起来并不简单。你需要设计一套评分标准(rubric),既不能太松(什么都给高分就没意义了),也不能太紧(跟纯规则奖励没区别)。论文里没有详细展开 rubric 的具体内容,但从结果来看效果不错。

最让我意外的两个应用

论文里有两组实验结果让我眼前一亮。

用世界模型做仿真 RL 训练

第一个是用 Qwen-AgentWorld 作为环境模拟器来训练其他 Agent。

他们用 Qwen-AgentWorld-397B-A17B 在 4000 个 OpenClaw 环境上做仿真 RL 训练(Sim RL),结果:

  • Claw-Eval 从 65.4 提升到 69.7(+4.3)
  • QwenClawBench 从 47.9 提升到 55.0(+7.1)

这意味着什么?你不需要真的搭建几千个真实环境来训练 Agent,用世界模型模拟就够了。而且效果比只在真实环境上训练还要好。

这在成本上是巨大的节省。真实环境需要服务器、API 调用、数据存储,而模拟环境只需要一个模型跑推理。我之前帮人搭过一个 Agent 测试环境,光是准备测试数据和配置各种 API 就花了好几天。如果世界模型能替代大部分真实环境交互,训练效率能提升一个数量级。

在虚构世界里训练,真实世界也能用

第二个更炸裂:他们在完全虚构的世界里训练 Agent,结果 Agent 在真实搜索任务上也变强了。

具体做法是:构造一些完全不存在的虚构世界(有自洽的规则和知识),让 Agent 在这些虚构世界里训练,然后测试它在真实搜索任务上的表现。

结果:WideSearch F1 Item 从 34.02 飙升到 50.31,涨了 16 个点。

这个结果说明了什么?说明世界模型训练学到的不只是"特定环境的知识",而是"如何理解和模拟环境变化"这种通用能力。就像你学会了下象棋的策略,这些策略在围棋里也部分适用——因为底层的推理模式是相通的。

这对 AI Agent 开发的意义很大。以前训练 Agent 最头疼的就是"环境多样性"——你需要在足够多样的环境里训练,Agent 才能泛化到新环境。现在看来,虚构环境也能起到类似的效果。

跟现有方案比,优势在哪

说实话,我第一眼看到这个 benchmark 的时候有点怀疑——又是自己出题自己考?但仔细看了一下评测方法,发现 AgentWorldBench 的数据来自 5 个不同模型在 9 个已有 benchmark 上的真实交互,不是凭空造的数据。评测用的是五维 rubric 评分,不是简单的对错判断。

跟其他方案比:

vs 纯工具调用型 Agent(如 Hermes Agent、OpenClaw):这些框架把 Agent 的能力建立在工具调用上,工具好不好用决定了 Agent 好不好用。Qwen-AgentWorld 的思路不同——它先让模型理解环境动态,再去做工具调用。更像是"先学原理,再学操作"。

vs 通用大模型直接当 Agent(如 GPT-5.4、Claude Opus):通用模型什么都能干一点,但在特定 Agent 场景下不够专业。Qwen-AgentWorld 通过专门的世界模型训练,在 Agent 场景上超过了通用模型。

vs 强化学习训练的 Agent(如 OpenAI 的 Agent 方案):传统的 RL 训练需要大量真实环境交互,成本高、速度慢。Qwen-AgentWorld 用世界模型做模拟器,大幅降低了训练成本。

不过也有局限。论文里 Search 领域的得分虽然最高,但绝对值也就 37 左右,说明搜索场景确实难搞。Web 和 Android 领域的提升也不算特别大。这七个领域的难度差异很明显,世界模型在不同领域的效果也不一样。

对 AI Agent 开发者意味着什么

如果你在做 AI Agent 相关的开发,这个发布有几个值得关注的点:

训练成本可能要降一个数量级。用世界模型做仿真 RL,不用搭那么多真实环境。这对小团队和独立开发者来说是好消息——以前只有大厂才玩得起的 Agent RL 训练,现在门槛降低了。

Agent 的"直觉"有了新解释。以前我们说某个 Agent "很聪明",其实就是 prompt 写得好、工具选得对。现在世界模型给 Agent 提供了一种类似直觉的能力——不用真的试,脑子里过一遍就知道行不行。

开源模型又多了一个强选手。35B 参数的 MoE 模型,激活参数才 3B,用消费级显卡量化后应该能跑。这比动辄几百 B 参数的模型友好多了。

跨领域能力有戏了。在虚构世界训练出来的能力能迁移到真实场景,这说明 Agent 的泛化能力可能比我们想象的要好。以前做 Agent 最头疼的就是"换个场景就不灵了",世界模型可能是解决这个问题的方向之一。

Agent 评测有了新工具。AgentWorldBench 作为评测基准本身也有价值。现在市面上的 Agent benchmark 太碎片化了——有的只测工具调用,有的只测代码生成,有的只测网页交互。AgentWorldBench 试图用统一的 rubric 评测七个领域,这个思路值得借鉴。

对现有 Agent 框架的影响。如果你在用 LangChain、CrewAI、AutoGen 这些框架,世界模型短期内不会替代它们。但从长期来看,如果世界模型技术成熟了,Agent 框架的核心逻辑可能会从"编排工具调用"变成"编排环境模拟+选择性执行"。这会是一个范式级别的变化。

更大的图景:AI Agent 正在从"工具人"变成"思考者"

把视角拉远一点看,Qwen-AgentWorld 代表的是 AI Agent 发展的一个阶段性变化。

过去两年,Agent 的主流做法是"大模型 + 工具调用"。模型本身不做太多思考,主要靠 prompt engineering 和工具设计来弥补能力不足。你给它一个好用的工具,它就能干好活;工具不好用,它就抓瞎。

世界模型的思路是反过来:先让模型理解环境是怎么运作的,再决定怎么行动。Agent 不再是一个"工具人"——你让它干嘛它就干嘛,而是一个"思考者"——它会在脑子里先演练一遍,评估各种方案的可行性,然后选最优解。

这个变化跟人类学习的过程很像。你刚开始学做菜的时候,严格按照菜谱来,一步都不敢错(对应工具调用型 Agent)。做多了之后,你脑子里有了一个"厨房世界模型"——知道盐放多了会咸、火大了会糊、食材下锅的顺序会影响口感。这时候你不需要菜谱了,因为你能在脑子里"模拟"做菜的过程。

当然,现在说 AI Agent 能像人一样思考还为时过早。Qwen-AgentWorld 的世界模型本质上还是在做"文本预测"——给定当前状态和动作,预测下一个状态的文本描述。它没有真正"理解"环境的物理规律,只是在统计上学会了环境变化的模式。但即便如此,这种能力对 Agent 的实际表现提升已经很明显了。

从行业角度看,世界模型可能会成为 Agent 训练的标配。就像当年 BERT 开启了预训练+微调的范式一样,世界模型训练可能会成为 Agent 开发的标准步骤。Qwen 团队这次开源了模型和评测基准,降低了其他团队的尝试门槛。如果后续有更多团队在这个方向上做出成果,整个 Agent 生态都会受益。

局限性和需要注意的地方

虽然我对这个工作整体评价很高,但也有几个地方需要泼点冷水。

Benchmark 是自己设计的。AgentWorldBench 虽然用了已有 benchmark 的数据,但评测框架和 rubric 是 Qwen 团队自己做的。"自己出题自己考"的问题无法完全避免。就像学校自己出期末考试卷,总会对自己学生有利一些。我们需要等第三方用独立方法验证这些结果。

真实环境的复杂性远超模拟。论文里的环境相对标准化——终端命令的输出、API 返回的格式都是可预测的。但真实世界里有各种奇怪的情况:网络超时、API 版本不兼容、权限问题、时区bug……这些边界情况世界模型能覆盖多少,论文没有深入讨论。

35B 参数对普通开发者还是有点重。虽然 MoE 架构激活参数只有 3B,但总参数 35B 意味着模型文件至少 17GB(FP16),加上推理框架的开销,消费级显卡(24GB 以下)跑起来会比较紧张。量化到 4bit 能压到 10GB 左右,但推理质量会打折扣。

七个领域的能力不均匀。搜索领域表现亮眼,但 Web 和 Android 领域的提升有限。这两个领域需要处理视觉信息(网页截图、手机屏幕),纯文本的世界模型在这方面天然有短板。后续如果加入多模态能力,可能会有更大突破。

开源的是小版本。397B-A17B 的大版本没有开源,只有 35B-A3B 的小版本。大版本的性能确实更好,但你跑不了。这意味着你在本地能复现的效果会比论文里的最好结果差一截。

怎么上手

如果你想试试这个模型,现在有两个途径:

HuggingFace 直接下载

bash
1
# 模型权重
2
huggingface-cli download Qwen/Qwen-AgentWorld-35B-A3B
3
 
4
# 评测基准数据
5
huggingface-cli download Qwen/AgentWorldBench

用 SGLang 部署推理服务

bash
1
pip install sglang
2
python -m sglang.launch_server \
3
  - -model-path Qwen/Qwen-AgentWorld-35B-A3B \
4
  - -tp 1 \
5
  - -trust-remote-code

用 vLLM 部署

bash
1
pip install vllm
2
python -m vllm.entrypoints.openai.api_server \
3
  - -model Qwen/Qwen-AgentWorld-35B-A3B \
4
  - -trust-remote-code

35B 参数用 FP16 大概需要 70GB 显存,用 AWQ/GPTQ 量化后可以压到 20GB 以下,4090 应该能跑。具体得看量化精度和推理框架的优化程度。

ModelScope 也可以下载(对国内用户更友好):

bash
1
# 设置环境变量让推理框架从 ModelScope 下载
2
export VLLM_USE_MODELSCOPE=true
3
python -m vllm.entrypoints.openai.api_server   --model Qwen/Qwen-AgentWorld-35B-A3B   --trust-remote-code

如果你不想自己部署,也可以直接用 Qwen 的 API(如果他们后续开放的话)。不过从论文来看,这个模型的主要用途是作为 Agent 训练的环境模拟器,而不是直接当聊天机器人用。所以自己部署、集成到训练流程里才是正确的打开方式。

这里有个实操建议:如果你想快速验证效果,先用 35B 版本跑一下 AgentWorldBench 的测试数据,看看在你关心的领域得分如何。如果分数满意,再考虑把它集成到你的 Agent 训练流程里。

跟其他最近的进展对比

最近 AI Agent 领域挺热闹的。除了 Qwen-AgentWorld,还有几个值得关注的动向:

Anthropic 的 Claude Agent SDK:之前我写过一篇文章介绍这个,主要是提供了一套构建 Agent 的工具和 API。Claude Agent SDK 的思路是"给开发者好用的工具",而 Qwen-AgentWorld 的思路是"让 Agent 本身更强"。两个方向不矛盾,可以结合。

OpenAI 的 Agent 方案:OpenAI 一直在做 Agent 相关的东西,但公开的信息比较碎片化。从 Codex CLI 到各种 API,他们的 Agent 能力更多是"在现有模型上叠加工具调用",而不是像 Qwen 这样从模型训练层面做优化。

Google 的 Gemini Agent:Gemini 在 Agent 方面也有布局,特别是在 Android 和 Web 领域。但 Gemini 的 Agent 能力更多依赖于多模态理解(看屏幕截图、理解网页),而 Qwen-AgentWorld 主要靠文本模拟。两种路线各有优劣。

综合来看,Qwen-AgentWorld 的独特之处在于它是第一个把"世界模型"这个概念在 Agent 领域做实了的开源方案。不是论文里的概念验证,是真正训练了模型、跑了 benchmark、开源了代码。这种"从 0 到 1"的工作在 AI 领域越来越稀缺了。

我的一些想法

说实话,读完这个论文我是有点兴奋的。不是因为 Qwen 打败了 GPT-5.4(benchmark 永远只能说明一部分问题),而是因为"语言世界模型"这个方向感觉真的有搞头。

之前做 Agent 开发的时候,最痛苦的就是调试。Agent 犯错了,你不知道它是理解错了、推理错了、还是工具调用错了。如果有一个靠谱的世界模型,你可以在脑子里先模拟一遍,快速定位问题出在哪一步。这对 Agent 开发效率的提升是实打实的。

另外,虚构世界训练能迁移这个发现也很有意思。这意味着未来可能不需要在每个真实场景都采集大量数据,构造一些高质量的虚构场景就够了。这对数据稀缺的领域(比如医疗、法律、金融)特别有价值。

当然,也别太乐观。论文里的 benchmark 是自己设计的,虽然尽量做到了公平,但"自己出题自己考"的问题还是存在。世界模型在真实复杂场景下的表现如何,还需要更多独立验证。而且 35B 参数的模型虽然不大,但对普通开发者来说也不是随便就能跑的。

后面我打算本地部署这个模型试一试,看看在实际 Agent 任务上的表现到底怎么样。到时候再写一篇实测体验。

最后说一个让我感慨的点。Qwen 团队(阿里云)这两年在开源上的投入真的肉眼可见。从 Qwen 系列模型到 Qwen-AgentWorld,每次发的东西都是认认真真做的,不是那种"开源个阉割版引流"的套路。35B 参数的 MoE 模型,激活参数才 3B,这个设计明显是考虑了部署成本的。AgentWorldBench 也直接开源了评测数据。作为一个搞技术的人,看到大厂这么搞开源是开心的。

有啥问题评论区聊。

  • 参考资料:*

advertisement

Qwen-AgentWorld 发布:AI Agent 终于有了自己的"世界模型",这次阿里是真的猛 — AI Hub