阿里巴巴 Qwen-AgentWorld：從未被訓練成 Agent，卻在七大基準測試中提升了 Agent 表現

在 AI Agent（智慧代理）的發展浪潮中，業界長期面臨一個根本性瓶頸：真實環境無法系統性地暴露邊緣案例。真實的搜尋引擎不會按需回傳特定異常結果，線上終端機也無法隨時模擬磁碟空間不足的情境。這意味著，無論團隊投入多少算力進行強化學習，Agent 在訓練中遇到的場景永遠只是生產環境的冰山一角——那些真正考驗 Agent 韌性的罕見情境，在訓練階段幾乎不會出現。阿里巴巴 Qwen 團隊於本週發布的 Qwen-AgentWorld，正是對這個痛點的一次根本性回應。它不訓練模型「該做什麼」，而是訓練模型「環境會回傳什麼」——這個看似簡單的翻轉，卻產生了令人矚目的效果。

技術架構與核心創新：語言世界模型的逆向設計

傳統的 Agent 模型回答的是一個問題：「環境剛剛顯示了什麼，我接下來該做什麼？」 Qwen-AgentWorld 回答的是完全相反的問題：「Agent 剛剛做了什麼，環境接下來會顯示什麼？」

這個逆轉構成了論文所稱的 Language World Model（語言世界模型） 的核心。模型不再針對動作選擇進行最佳化，而是學習在單一訓練目標下，預測七大領域的下一個環境狀態。這七個領域涵蓋：

MCP（Model Context Protocol）
Search（搜尋）
Terminal（終端機）
Software Engineering（軟體工程）
Android
Web
OS（作業系統）

「我們主張，世界建模是通往通用 Agent 路徑上一個關鍵的缺失環節。」——Qwen-AgentWorld 論文

三階段訓練流程

阿里巴巴在超過 1,000 萬條環境互動軌跡 上，以三個階段訓練了兩個模型：

階段	訓練目標	內容說明
Stage 1	環境行為學習	教導模型理解檔案系統、終端狀態、瀏覽器 DOM 變化、API 回應等環境運作方式
Stage 2	推理式預測	訓練模型在預測前先進行推理，理解「接下來會發生什麼」
Stage 3	強化學習精煉	透過規則式檢查與開放式品質評分，收緊預測精度

模型規格

兩個模型皆採用 Mixture-of-Experts（MoE，混合專家） 架構，每個 token 僅啟用部分參數：

模型	總參數量	每 token 啟用參數	上下文窗口	授權
`Qwen-AgentWorld-35B`	`35B`	`3B`	`256K`	Apache 2.0（公開）
`Qwen-AgentWorld-397B`	`397B`	`17B`	`256K`	未公開

值得注意的是，在 GUI 領域（Android、Web、OS），模型並非從截圖操作，而是基於 文字化的無障礙樹（Accessibility Tree）與 UI 視圖層級結構 運作，這在效率與可擴展性上具有明顯優勢。

關鍵實驗結果：模擬訓練為何勝過真實環境

基準測試的分數固然重要，但真正值得關注的是 這些預測能力對實際 Agent 建構團隊的價值。

受控模擬 vs. 真實環境訓練

實驗場景	指標	未受控模擬 RL	受控模擬 RL	提升幅度
`MCPMark`	綜合分數	24.6	33.8	+37.4%
`WideSearch F1 Item`（35B 開源模型）	F1 分數	34.02	50.31	+47.9%

更令人驚訝的是，在 Search 領域的實驗中，Agent 在完全虛構的世界中訓練後，成功遷移到了真實搜尋任務。這是對「模擬訓練必然過擬合」這一傳統擔憂的最有力反駁。

暖身訓練的遷移效果

另一組獨立實驗顯示，將世界模型訓練作為 Agent 微調前的「暖身」階段，在 完全沒有 Agent 專屬微調 的情況下，就能帶來顯著提升：

基準測試	無暖身	有世界模型暖身	提升幅度
`BFCL v4`	62.29	71.25	+14.4%
`Claw-Eval`	53.60	64.88	+21.0%

這七個遷移基準測試中，有三個是模型在訓練期間 從未見過的領域，這強烈暗示世界模型學到的不僅是特定環境的模式，而是某種更泛化的環境理解能力。

與前作的比較：從單一領域到七域統一

Qwen-AgentWorld 並非憑空出現，而是建立在先前研究的基礎上，但範圍與深度有了質的飛躍：

項目	發布時間	涵蓋領域	方法論
`WebWorld`（Qwen 團隊）	2026 年 2 月	僅 Web 環境	語言世界模型
`Snowflake Agent World Model`	2026 年 2 月	程式碼驅動的 SQL 環境	生成環境而非預測狀態
`Qwen-AgentWorld`	2026 年 6 月	七大領域統一架構	從預訓練階段即嵌入環境建模

這也延續了阿里巴巴近期在自主 Agent 領域的積極布局。今年五月發布的 Qwen3.7-Max 已具備 35 小時自主執行能力，而 Qwen-AgentWorld 則從訓練基礎設施層面，為這類長時間自主運行的 Agent 提供了更堅實的底座。

業界反應與過擬合風險

論文發布後，AI 研究社群在 X 平台上迅速展開討論，反應呈現出謹慎樂觀與合理質疑並存的態勢。

肯定面： 擁有博士背景的 AI/ML 研究者 @drawais_ai 直指核心：

「其他所有『Agent』模型都是被訓練來在環境中行動的。Qwen 翻轉了問題。他們訓練模型去預測環境本身……這種預測性知識隨後遷移到了 Agent 任務，甚至不需要任何 Agent 專屬的微調。」

他特別指出受控模擬 RL 的結果是「合成訓練可以在規模上替代真實環境 RL」這一主張的「收據」。

質疑面： 專注於 AI 研究關鍵數據的 @TheSignal_Desk 則對基準測試的公正性提出質疑：

「AgentWorldBench 是阿里巴巴在同一篇論文中自行建構並發布的基準測試。他們自己出題，然後以 0.46 的差距拿下第一名。」

而實際建構生產級 AI Agent 的開發者 @limalemonnn 則聚焦於模擬 RL 的過擬合風險：

「模擬訓練的 Agent 傳統上會過擬合於模擬器的特性。如果世界模型太乾淨，Agent 學到的是模型本身，而不是任務。」

對此，論文數據提供了部分回應：未受控模擬 RL（MCPMark 24.6）與受控模擬 RL（MCPMark 33.8）之間的差距，暗示增益 實質性地依賴於可控性機制，而非僅靠模擬精度。而虛構世界搜尋實驗的成功遷移，則是論文中對抗過擬合質疑的最強證據。

專業點評：對 Agent 開發生態的深遠影響

Qwen-AgentWorld 的發布，在我看來，代表的不僅是一個新模型，而是 Agent 訓練範式的潛在轉折點。它為正在建構和擴展 Agent 管線的工程團隊，開闢了一條介於「純真實環境 RL」和「靜態基準測試」之間的第三條路。

三大實務啟示：

合成環境是合法的訓練層：受控模擬注入真實環境不會產生的條件，是真實環境 RL 的互補，而非捷徑。團隊可以系統性地暴露邊緣案例，而不必等待生產環境偶然觸發。
Agent 訓練前的環境理解比多數管線所考量的更重要：暖身實驗的結果——在未見過的基準測試上取得增益，且無需 Agent 專屬訓練——強烈建議環境基礎（environment grounding）應在開發流程中更早介入。
MoE 架構使世界模型在推論成本上具備可行性：397B 模型僅啟用 17B 參數，35B 模型僅啟用 3B，這意味著即使是大規模世界模型，在推論階段的計算成本也可以被控制在合理範圍內。

局限性與待驗證之處：

自建基準測試的公正性：AgentWorldBench 由同一團隊建構並測試，獨立第三方驗證至關重要。
397B 模型未開源：最強模型的權重未公開，限制了社群的獨立驗證與復現能力。
從模擬到生產的差距：儘管虛構世界遷移實驗令人印象深刻，但在更多元、更混亂的真實生產環境中，這種遷移能力是否穩健，仍需要大量實戰驗證。
GUI 領域的文字化表示：以無障礙樹取代截圖雖然高效，但可能遺漏視覺佈局中隱含的語義資訊，在某些需要精確視覺理解的任務中可能成為瓶頸。

從更宏觀的角度看，如果世界模型訓練範式被驗證為有效且可泛化，它可能從根本上改變 Agent 訓練的經濟學——團隊不再需要為了覆蓋邊緣案例而維護昂貴的真實環境基礎設施，合成模擬將成為 Agent 開發工具鏈中不可或缺的一環。這對於資源有限的中小型團隊而言，可能是一個重大的平權化機會。