Qwen-AgentWorld 发布：AI Agent 终于有了自己的"世界模型"，这次阿里是真的猛

昨天在 Hacker News 上刷到一个帖子，Qwen 团队发了个新东西叫 AgentWorld，标题写的是 "Language World Models for General Agents"。我第一反应是——又是新概念？AI Agent 领域三天两头出新名词，什么 Agentic RAG、Agentic Workflow、Tool Use，我已经麻了。

但点进去看完论文和 GitHub 之后，我得说：这东西是真的有东西。

简单来说，Qwen 团队搞了一个能让 AI Agent 在"脑子里"模拟真实环境的世界模型。不是那种玩具级别的 demo，是覆盖了 MCP、搜索、终端、SWE、Android、Web、OS 七个领域的正式版。而且他们开源了 35B 参数的版本，MoE 架构，激活参数只有 3B，跑起来并不算太重。

我花了一下午把论文和代码翻了个遍，这篇文章就聊聊这东西到底是什么、怎么做到的、对做 AI Agent 开发的人意味着什么。

什么是"语言世界模型"？

先说说"世界模型"这个概念。在 AI 领域，世界模型（World Model）不是什么新东西，强化学习里老早就有了。核心思想是：让 AI 在一个模拟环境里先练手，再去真实环境干活。就像你打游戏之前先看攻略视频，脑子里有个"这个怪会怎么出招"的预期。

但以前的世界模型主要用在游戏和机器人上（比如 MuZero 下围棋、自动驾驶仿真），因为那些环境的规则是明确的、有限的。

问题是——AI Agent 面对的环境太复杂了。终端命令的输出、网页的 DOM 变化、API 返回的 JSON、代码文件的修改……这些东西用传统的状态机或规则引擎根本模拟不了。

Qwen-AgentWorld 的思路是：用语言模型本身来当世界模型。

你给它一个当前状态（比如"你在终端里执行了 pip install torch"），它能预测下一步环境会变成什么样（"安装进度条...成功安装 torch 2.6.0"）。而且不是简单的接龙，是通过长链推理（long chain-of-thought）来模拟环境的变化过程。

说白了，就是让大模型学会"脑补"——Agent 不用真的去执行每一条命令，在脑子里过一遍就知道结果对不对。这在训练阶段能省大量真实环境交互的成本。

举个更具体的例子。假设你让 Agent 帮你在终端里装一个 Python 包，正常流程是：Agent 输出命令 → 真实终端执行 → 返回结果 → Agent 判断下一步。如果有世界模型，流程变成：Agent 输出命令 → 世界模型模拟结果 → Agent 直接判断。真实终端根本不用动。

这对训练阶段的意义巨大。训练一个 Agent 可能需要跑几百万次环境交互，每次都要等真实环境响应，时间成本和 API 费用加起来是天文数字。用世界模型做模拟器，速度能快几十倍，成本也能降一到两个数量级。

不过这里有个关键问题：模拟结果得靠谱。如果世界模型的预测跟真实环境差太远，Agent 学到的就是错误的环境动态，反而越练越差。所以 Qwen 团队在训练世界模型的时候花了大量精力在"模拟准确度"上，后面的 RL 阶段主要就是在做这件事。

Qwen-AgentWorld 到底做了什么

Qwen 团队这次发了两个东西：

模型：Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B。35B 版本已经开源，MoE 架构，总共 35B 参数但激活参数只有 3B，支持 256K 上下文。这个参数量在本地跑需要一些显存，但用量化版本的话消费级显卡也不是不能搞。

基准测试：AgentWorldBench，覆盖 MCP、搜索、终端、SWE、Android、Web、OS 七个领域。数据来自 5 个前沿模型在 9 个已有 benchmark 上的真实交互轨迹。

让我先把性能数据摆出来，因为这才是最能说明问题的：

总体得分：Qwen-AgentWorld-397B-A17B 拿到 58.71 分，超过了 GPT-5.4 的 58.25
MCP 领域：35B 版本 64.79，和 Claude Sonnet 4.6 的 70.00 还有差距，但已经超过了 DeepSeek-V4-Pro
搜索领域：两个版本分别拿到 36.69 和 37.82，直接碾压所有竞品（GPT-5.4 才 37.26）
SWE 领域：397B 版本 68.49，超过 GPT-5.4 的 66.29

注意一个细节：原版 Qwen3.5-35B-A3B（没有世界模型训练）在这个 benchmark 上只有 47.73 分，加了世界模型训练之后直接跳到 56.39，涨了将近 9 分。这个提升幅度相当离谱。

让我把这些数据翻译成人话：

35B 的小版本在 MCP 领域（工具调用）跟 Claude Sonnet 4.6 打了个平手（64.79 vs 70.00），考虑到参数量差距，这已经很强了
搜索领域是亮点中的亮点，397B 版本 37.82 分直接拿了第一，连 GPT-5.4 都压了一头
SWE 领域 397B 版本 68.49，比 GPT-5.4 高了 2 个多点，说明写代码改 bug 这种任务世界模型确实有帮助
但 Web 和 Android 领域提升不大，这两个领域涉及到视觉理解（看网页、看手机屏幕），纯文本的世界模型可能还不够

有个数据特别值得注意：同样是 35B 参数，原版 Qwen3.5 和 AgentWorld 版本的差距在不同领域差异很大。搜索领域涨了 10.71 分，但 Android 领域只涨了 4.99 分。这说明世界模型训练对不同类型任务的收益是不一样的——越是需要"预测下一步会发生什么"的任务，世界模型的帮助越大。

七个领域到底覆盖了什么

这七个领域不是随便选的，每一个都对应 Agent 实际干活时会遇到的场景：

MCP：Model Context Protocol，就是 Agent 调用各种工具的协议。Agent 需要知道工具返回什么、怎么处理错误
Search：搜索场景，Agent 需要理解搜索结果、提取信息、判断相关性
Terminal：终端操作，执行命令、读输出、处理报错
SWE：软件工程，改代码、跑测试、修 bug
Android：手机端操作，点击、滑动、输入
Web：网页交互，填表单、点按钮、抓数据
OS：操作系统层面的交互

覆盖面相当全。我之前用过的 Agent 框架（比如 LangGraph、CrewAI）基本上只擅长其中一两个领域，遇到跨领域任务就得手动编排。Qwen-AgentWorld 试图用一个模型搞定所有场景，野心不小。

这里面最有意思的是 MCP 领域。MCP（Model Context Protocol）是现在 AI Agent 生态里的核心协议，Agent 调用工具基本都走 MCP。一个 Agent 能不能在 MCP 场景下表现出色，直接影响它能不能真正干活。Qwen-AgentWorld 在 MCP 领域拿到 64.79 分（35B 版本），虽然不如 Claude Sonnet 4.6 的 70.00，但已经是非常可用的水平了。

我之前写过好几篇关于 MCP 的文章，从 MCP 协议本身到 MCP 服务器的安全问题都聊过。一个反复出现的痛点是：Agent 调用 MCP 工具的时候经常"不知道下一步该干什么"。比如你让它调用一个文件系统 MCP 工具，它可能不知道先 ls 看看目录结构，上来就 cat 一个不存在的文件。世界模型的思路是让 Agent 先在脑子里"演练"一遍调用过程，搞清楚工具的输入输出格式和可能的错误，再真正执行。这个方向我觉得是对的。

三阶段训练：怎么把大模型变成世界模型

这部分是论文最核心的技术贡献。他们用了三个阶段来训练：

第一阶段：CPT（Continued Pre-Training）

在 Qwen3.5 的基础上继续预训练，但不是用普通的文本语料，而是用了超过 1000 万条真实环境交互轨迹。这些轨迹覆盖了上面说的七个领域。

关键点是：从 CPT 阶段开始就在训练"环境建模"能力，不是事后微调。论文里特别强调这是 "native world model"——环境建模是训练目标本身，不是附加任务。

这个设计思路我觉得挺聪明的。之前很多做法是在已有的通用模型上加一个环境模拟模块，等于是在模型外面套了个壳。Qwen 的做法是把环境知识直接灌进模型的"骨子里"。

第二阶段：SFT（Supervised Fine-Tuning）

用精心标注的数据来激活"下一状态预测"的推理能力。简单说就是教模型：给定当前状态和动作，正确预测下一个状态应该长什么样。

这一步的关键是数据质量。1000 万条轨迹里只有精选的部分被拿来做 SFT，确保模型学到的是正确的环境动态，而不是噪声。

第三阶段：RL（Reinforcement Learning）

用混合评分标准（rubric + rule rewards）来做强化学习，进一步打磨模拟的准确度。

这里有个很巧妙的设计：他们不只用规则奖励（比如"预测结果和真实结果是否一致"），还用 rubric 评分（更细粒度的质量评估）。这种混合奖励机制能让模型在"对"的基础上追求"好"。

打个比方，规则奖励就像考试的对错判断题，答案对了就得分。Rubric 评分更像是作文评分，不仅看对不对，还看写得好不好、逻辑清不清楚、有没有遗漏细节。

在环境模拟这个任务上，纯对错判断是不够的。比如 Agent 预测"执行 ls 命令后会显示 3 个文件"，真实结果是 4 个文件——从规则上看完全错了。但如果预测的文件名里有 3 个是对的，而且排序方式和权限信息都猜对了，那这个预测其实挺有价值的。Rubric 评分能捕捉到这种"部分正确"的情况。

这种混合奖励机制在技术上实现起来并不简单。你需要设计一套评分标准（rubric），既不能太松（什么都给高分就没意义了），也不能太紧（跟纯规则奖励没区别）。论文里没有详细展开 rubric 的具体内容，但从结果来看效果不错。

最让我意外的两个应用

论文里有两组实验结果让我眼前一亮。

用世界模型做仿真 RL 训练

第一个是用 Qwen-AgentWorld 作为环境模拟器来训练其他 Agent。

他们用 Qwen-AgentWorld-397B-A17B 在 4000 个 OpenClaw 环境上做仿真 RL 训练（Sim RL），结果：

Claw-Eval 从 65.4 提升到 69.7（+4.3）
QwenClawBench 从 47.9 提升到 55.0（+7.1）

这意味着什么？你不需要真的搭建几千个真实环境来训练 Agent，用世界模型模拟就够了。而且效果比只在真实环境上训练还要好。

这在成本上是巨大的节省。真实环境需要服务器、API 调用、数据存储，而模拟环境只需要一个模型跑推理。我之前帮人搭过一个 Agent 测试环境，光是准备测试数据和配置各种 API 就花了好几天。如果世界模型能替代大部分真实环境交互，训练效率能提升一个数量级。

在虚构世界里训练，真实世界也能用

第二个更炸裂：他们在完全虚构的世界里训练 Agent，结果 Agent 在真实搜索任务上也变强了。

具体做法是：构造一些完全不存在的虚构世界（有自洽的规则和知识），让 Agent 在这些虚构世界里训练，然后测试它在真实搜索任务上的表现。

结果：WideSearch F1 Item 从 34.02 飙升到 50.31，涨了 16 个点。

这个结果说明了什么？说明世界模型训练学到的不只是"特定环境的知识"，而是"如何理解和模拟环境变化"这种通用能力。就像你学会了下象棋的策略，这些策略在围棋里也部分适用——因为底层的推理模式是相通的。

这对 AI Agent 开发的意义很大。以前训练 Agent 最头疼的就是"环境多样性"——你需要在足够多样的环境里训练，Agent 才能泛化到新环境。现在看来，虚构环境也能起到类似的效果。

跟现有方案比，优势在哪

说实话，我第一眼看到这个 benchmark 的时候有点怀疑——又是自己出题自己考？但仔细看了一下评测方法，发现 AgentWorldBench 的数据来自 5 个不同模型在 9 个已有 benchmark 上的真实交互，不是凭空造的数据。评测用的是五维 rubric 评分，不是简单的对错判断。

跟其他方案比：

vs 纯工具调用型 Agent（如 Hermes Agent、OpenClaw）：这些框架把 Agent 的能力建立在工具调用上，工具好不好用决定了 Agent 好不好用。Qwen-AgentWorld 的思路不同——它先让模型理解环境动态，再去做工具调用。更像是"先学原理，再学操作"。

vs 通用大模型直接当 Agent（如 GPT-5.4、Claude Opus）：通用模型什么都能干一点，但在特定 Agent 场景下不够专业。Qwen-AgentWorld 通过专门的世界模型训练，在 Agent 场景上超过了通用模型。

vs 强化学习训练的 Agent（如 OpenAI 的 Agent 方案）：传统的 RL 训练需要大量真实环境交互，成本高、速度慢。Qwen-AgentWorld 用世界模型做模拟器，大幅降低了训练成本。

不过也有局限。论文里 Search 领域的得分虽然最高，但绝对值也就 37 左右，说明搜索场景确实难搞。Web 和 Android 领域的提升也不算特别大。这七个领域的难度差异很明显，世界模型在不同领域的效果也不一样。

对 AI Agent 开发者意味着什么

如果你在做 AI Agent 相关的开发，这个发布有几个值得关注的点：

训练成本可能要降一个数量级。用世界模型做仿真 RL，不用搭那么多真实环境。这对小团队和独立开发者来说是好消息——以前只有大厂才玩得起的 Agent RL 训练，现在门槛降低了。

Agent 的"直觉"有了新解释。以前我们说某个 Agent "很聪明"，其实就是 prompt 写得好、工具选得对。现在世界模型给 Agent 提供了一种类似直觉的能力——不用真的试，脑子里过一遍就知道行不行。

开源模型又多了一个强选手。35B 参数的 MoE 模型，激活参数才 3B，用消费级显卡量化后应该能跑。这比动辄几百 B 参数的模型友好多了。

跨领域能力有戏了。在虚构世界训练出来的能力能迁移到真实场景，这说明 Agent 的泛化能力可能比我们想象的要好。以前做 Agent 最头疼的就是"换个场景就不灵了"，世界模型可能是解决这个问题的方向之一。

Agent 评测有了新工具。AgentWorldBench 作为评测基准本身也有价值。现在市面上的 Agent benchmark 太碎片化了——有的只测工具调用，有的只测代码生成，有的只测网页交互。AgentWorldBench 试图用统一的 rubric 评测七个领域，这个思路值得借鉴。

对现有 Agent 框架的影响。如果你在用 LangChain、CrewAI、AutoGen 这些框架，世界模型短期内不会替代它们。但从长期来看，如果世界模型技术成熟了，Agent 框架的核心逻辑可能会从"编排工具调用"变成"编排环境模拟+选择性执行"。这会是一个范式级别的变化。

更大的图景：AI Agent 正在从"工具人"变成"思考者"

把视角拉远一点看，Qwen-AgentWorld 代表的是 AI Agent 发展的一个阶段性变化。

过去两年，Agent 的主流做法是"大模型 + 工具调用"。模型本身不做太多思考，主要靠 prompt engineering 和工具设计来弥补能力不足。你给它一个好用的工具，它就能干好活；工具不好用，它就抓瞎。

世界模型的思路是反过来：先让模型理解环境是怎么运作的，再决定怎么行动。Agent 不再是一个"工具人"——你让它干嘛它就干嘛，而是一个"思考者"——它会在脑子里先演练一遍，评估各种方案的可行性，然后选最优解。

这个变化跟人类学习的过程很像。你刚开始学做菜的时候，严格按照菜谱来，一步都不敢错（对应工具调用型 Agent）。做多了之后，你脑子里有了一个"厨房世界模型"——知道盐放多了会咸、火大了会糊、食材下锅的顺序会影响口感。这时候你不需要菜谱了，因为你能在脑子里"模拟"做菜的过程。

当然，现在说 AI Agent 能像人一样思考还为时过早。Qwen-AgentWorld 的世界模型本质上还是在做"文本预测"——给定当前状态和动作，预测下一个状态的文本描述。它没有真正"理解"环境的物理规律，只是在统计上学会了环境变化的模式。但即便如此，这种能力对 Agent 的实际表现提升已经很明显了。

从行业角度看，世界模型可能会成为 Agent 训练的标配。就像当年 BERT 开启了预训练+微调的范式一样，世界模型训练可能会成为 Agent 开发的标准步骤。Qwen 团队这次开源了模型和评测基准，降低了其他团队的尝试门槛。如果后续有更多团队在这个方向上做出成果，整个 Agent 生态都会受益。

局限性和需要注意的地方

虽然我对这个工作整体评价很高，但也有几个地方需要泼点冷水。

Benchmark 是自己设计的。AgentWorldBench 虽然用了已有 benchmark 的数据，但评测框架和 rubric 是 Qwen 团队自己做的。"自己出题自己考"的问题无法完全避免。就像学校自己出期末考试卷，总会对自己学生有利一些。我们需要等第三方用独立方法验证这些结果。

真实环境的复杂性远超模拟。论文里的环境相对标准化——终端命令的输出、API 返回的格式都是可预测的。但真实世界里有各种奇怪的情况：网络超时、API 版本不兼容、权限问题、时区bug……这些边界情况世界模型能覆盖多少，论文没有深入讨论。

35B 参数对普通开发者还是有点重。虽然 MoE 架构激活参数只有 3B，但总参数 35B 意味着模型文件至少 17GB（FP16），加上推理框架的开销，消费级显卡（24GB 以下）跑起来会比较紧张。量化到 4bit 能压到 10GB 左右，但推理质量会打折扣。

七个领域的能力不均匀。搜索领域表现亮眼，但 Web 和 Android 领域的提升有限。这两个领域需要处理视觉信息（网页截图、手机屏幕），纯文本的世界模型在这方面天然有短板。后续如果加入多模态能力，可能会有更大突破。

开源的是小版本。397B-A17B 的大版本没有开源，只有 35B-A3B 的小版本。大版本的性能确实更好，但你跑不了。这意味着你在本地能复现的效果会比论文里的最好结果差一截。

怎么上手

如果你想试试这个模型，现在有两个途径：

HuggingFace 直接下载：

bash

# 模型权重
huggingface-cli download Qwen/Qwen-AgentWorld-35B-A3B
 
# 评测基准数据
huggingface-cli download Qwen/AgentWorldBench

用 SGLang 部署推理服务：

bash

pip install sglang
python -m sglang.launch_server \
  - -model-path Qwen/Qwen-AgentWorld-35B-A3B \
  - -tp 1 \
  - -trust-remote-code

用 vLLM 部署：

bash

1	`pip install vllm`
2	`python -m vllm.entrypoints.openai.api_server \`
3	`- -model Qwen/Qwen-AgentWorld-35B-A3B \`
4	`- -trust-remote-code`

35B 参数用 FP16 大概需要 70GB 显存，用 AWQ/GPTQ 量化后可以压到 20GB 以下，4090 应该能跑。具体得看量化精度和推理框架的优化程度。

ModelScope 也可以下载（对国内用户更友好）：

bash

1	`# 设置环境变量让推理框架从 ModelScope 下载`
2	`export VLLM_USE_MODELSCOPE=true`
3	`python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen-AgentWorld-35B-A3B --trust-remote-code`

如果你不想自己部署，也可以直接用 Qwen 的 API（如果他们后续开放的话）。不过从论文来看，这个模型的主要用途是作为 Agent 训练的环境模拟器，而不是直接当聊天机器人用。所以自己部署、集成到训练流程里才是正确的打开方式。

这里有个实操建议：如果你想快速验证效果，先用 35B 版本跑一下 AgentWorldBench 的测试数据，看看在你关心的领域得分如何。如果分数满意，再考虑把它集成到你的 Agent 训练流程里。

跟其他最近的进展对比

最近 AI Agent 领域挺热闹的。除了 Qwen-AgentWorld，还有几个值得关注的动向：

Anthropic 的 Claude Agent SDK：之前我写过一篇文章介绍这个，主要是提供了一套构建 Agent 的工具和 API。Claude Agent SDK 的思路是"给开发者好用的工具"，而 Qwen-AgentWorld 的思路是"让 Agent 本身更强"。两个方向不矛盾，可以结合。

OpenAI 的 Agent 方案：OpenAI 一直在做 Agent 相关的东西，但公开的信息比较碎片化。从 Codex CLI 到各种 API，他们的 Agent 能力更多是"在现有模型上叠加工具调用"，而不是像 Qwen 这样从模型训练层面做优化。

Google 的 Gemini Agent：Gemini 在 Agent 方面也有布局，特别是在 Android 和 Web 领域。但 Gemini 的 Agent 能力更多依赖于多模态理解（看屏幕截图、理解网页），而 Qwen-AgentWorld 主要靠文本模拟。两种路线各有优劣。

综合来看，Qwen-AgentWorld 的独特之处在于它是第一个把"世界模型"这个概念在 Agent 领域做实了的开源方案。不是论文里的概念验证，是真正训练了模型、跑了 benchmark、开源了代码。这种"从 0 到 1"的工作在 AI 领域越来越稀缺了。

我的一些想法

说实话，读完这个论文我是有点兴奋的。不是因为 Qwen 打败了 GPT-5.4（benchmark 永远只能说明一部分问题），而是因为"语言世界模型"这个方向感觉真的有搞头。

之前做 Agent 开发的时候，最痛苦的就是调试。Agent 犯错了，你不知道它是理解错了、推理错了、还是工具调用错了。如果有一个靠谱的世界模型，你可以在脑子里先模拟一遍，快速定位问题出在哪一步。这对 Agent 开发效率的提升是实打实的。

另外，虚构世界训练能迁移这个发现也很有意思。这意味着未来可能不需要在每个真实场景都采集大量数据，构造一些高质量的虚构场景就够了。这对数据稀缺的领域（比如医疗、法律、金融）特别有价值。

当然，也别太乐观。论文里的 benchmark 是自己设计的，虽然尽量做到了公平，但"自己出题自己考"的问题还是存在。世界模型在真实复杂场景下的表现如何，还需要更多独立验证。而且 35B 参数的模型虽然不大，但对普通开发者来说也不是随便就能跑的。

后面我打算本地部署这个模型试一试，看看在实际 Agent 任务上的表现到底怎么样。到时候再写一篇实测体验。

最后说一个让我感慨的点。Qwen 团队（阿里云）这两年在开源上的投入真的肉眼可见。从 Qwen 系列模型到 Qwen-AgentWorld，每次发的东西都是认认真真做的，不是那种"开源个阉割版引流"的套路。35B 参数的 MoE 模型，激活参数才 3B，这个设计明显是考虑了部署成本的。AgentWorldBench 也直接开源了评测数据。作为一个搞技术的人，看到大厂这么搞开源是开心的。

有啥问题评论区聊。

参考资料：*

论文：Qwen-AgentWorld: Language World Models for General Agents
GitHub：QwenLM/Qwen-AgentWorld
模型权重：HuggingFace - Qwen/Qwen-AgentWorld-35B-A3B
Blog：qwen.ai/blog?id=qwen-agentworld

1	`# 模型权重`
2	`huggingface-cli download Qwen/Qwen-AgentWorld-35B-A3B`
3
4	`# 评测基准数据`
5	`huggingface-cli download Qwen/AgentWorldBench`

1	`pip install sglang`
2	`python -m sglang.launch_server \`
3	`- -model-path Qwen/Qwen-AgentWorld-35B-A3B \`
4	`- -tp 1 \`
5	`- -trust-remote-code`