過去兩個月,OpenRouter 平台上有一位「匿名強者」——Owl Alpha。它沒有品牌、沒有公開身份,卻默默佔據全球開發者排名前三,每月處理超過 1,010 億 tokens、日均 559 億 tokens,創下 242% 的月成長率。直到最近,這塊幕後引擎終於被揭露:它來自中國外賣巨頭美團(Meituan),正是即將開源的 LongCat-2.0

這不是一個普通的開源模型發布。LongCat-2.0 將 1.6 兆參數 的 Mixture-of-Experts 架構、100 萬 token 上下文視窗,以及 MIT 授權一併推向公眾。更重要的是,它完全在 5 萬顆以上中國國產 ASIC 晶片 上訓練而成,無一使用 NVIDIA GPU。對於 NVIDIA 在 AI 基礎設施的壟斷地位,以及美國近期限制高階模型出口的戰略,這無疑是一個值得嚴肅對待的訊號。

技術架構與創新點

LongCat-2.0 的核心設計哲學很明確:用稀疏換效能

MoE 架構 下,模型總參數達 1.6 兆,但每個 token 的實際推理僅需激活約 480 億參數,動態範圍落在 330 億至 560 億之間。這套「Zero-Compute Experts」設計讓常規執行流程走輕量子網路,徹底消除超密集模型常見的冗餘運算開銷。

但真正的技術亮點在於 LongCat Sparse Attention(LSA)——為支撐 100 萬 token 上下文而設計的稀疏注意力機制。它透過三個正交向量解決傳統稀疏機制的記憶體碎片化和二次方計算成本問題:

  • 串流感知索引(SI):將碎片化記憶體存取轉為連續區塊,提升 HBM 有效頻寬
  • 跨層索引(CLI):利用相鄰隱藏層注意力敏感性穩定的特性,單次索引即可指導多層推理
  • 分層索引(HI):粗到細兩階段篩選,先做近似區塊召回,再對剩餘候選做精細 token 選擇

「LSA 的核心洞察是:對於長序列而言,注意力集中點在層與層之間具有高度可預測性——因此我們不需要在每一層都重新計算完整的稀疏索引。」

此外,模型還繼承了 N-gram Embedding 模組,在 MoE 專家佈局的正交稀疏維度額外配置 1350 億參數,用於 5-gram 詞組框架,使嵌入空間擴展約 100 倍,有效降低大批量推理時的記憶體 I/O 瓶頸。

訓練策略:MOPD 框架

LongCat-2.0 的定位是 專為 Agent 任務設計的編碼模型,而非通用對話模型。為此,美團開發了 MOPD(Multi-Teacher Optimization via Mixture of Specialized Experts) 後訓練框架,將優化過程拆分為三個獨立專家簇:

  1. Agent 專家:專注工具呼叫、多輪 API 參數解析、自我修正迴圈
  2. Reasoning 專家:專攻多步邏輯推理、數學、STEM 解題
  3. Interaction 專家:聚焦人類對齊、指令遵循、抑制幻覺、安全邊界

「傳統 RLHF 將多目標優化壓縮成單一獎勵函數,必然導致某些能力被犧牲。MOPD 的哲學是:讓不同專家簇專門優化不同能力,再透過動態門控路由在推理時融合。這樣做避免了功能退化。」

這種設計讓 LongCat-2.0 能在同一個推理過程中,同時協調深度推理、穩定工具執行和安全使用者互動。

基準測試表現

在程式碼任務上,LongCat-2.0 展現了驚人的競爭力:

基準測試 LongCat-2.0 競爭對手
SWE-bench Pro 59.5 GPT-5.5: 58.6
Terminal-Bench 2.1 70.8
SWE-bench Multilingual 77.3
FORTE(企業工作流模擬) 73.2 Claude Opus 4.8 更優
BrowseComp 較低 Claude Opus 4.8 更優

值得注意的是,LongCat-2.0 在 SWE-bench Pro 上超越了 GPT-5.5,這是目前最嚴格的軟體工程基準之一。但在通用代理任務(如 FORTE、BrowseComp)上,它仍落後於 Claude Opus 4.8 等頂級閉源模型。這印證了它的定位:編碼任務的專家,而非全能型模型

硬體獨立性:國產 ASIC 訓練的意義

LongCat-2.0 最受矚目的突破,不是模型規模,而是硬體來源。

「如果中國企業能持續用國產 ASIC 迭代兆級架構,NVIDIA 在 AI 基礎設施的壟斷地位將面臨結構性挑戰。」

這套訓練完全在 5 萬顆以上中國本土 ASIC 晶片 上完成,無一使用 NVIDIA GPU。在近期美國政府要求 OpenAI 限制 GPT-5.6 存取、Anthropic 被迫下架 Claude Fable 5 / Mythos 5 的背景下,這項成就顯示中國科技巨頭已具備獨立建構近頂尖 AI 基礎設施的能力。

美國封鎖高階模型的策略,反而為中國開源模型創造了市場空間——當開發者面臨 API 成本飆升和存取限制時,像 LongCat-2.0 這樣的高效能替代品就顯得格外有吸引力。

商業模式與授權

美團在 LongCat-2.0 上採用了獨特的雙軌商業策略:

標準 API

  • 輸入:$0.75 / M tokens
  • 輸出:$2.95 / M tokens
  • 總計:$3.70 / M tokens

限時優惠(Flash-Sale Token Pack)

  • 輸入:$0.30 / M tokens
  • 輸出:$1.20 / M tokens
  • 總計:$1.50 / M tokens

Token Pack 以固定容量購買、30 天有效,每日 10:00、16:00、21:00、23:00 北京時間搶購。最大亮點是 上下文快取命中完全免費——在 Agent 環境中反覆讀取多百萬 token 程式碼庫時,這徹底改變了大型代理程式的運營成本結構。

授權方面,LongCat-2.0 採用 MIT 協議,允許企業自由修改、編譯、整合至閉源產品,無需公開改進。這與 GPL 等 copyleft 授權形成鮮明對比,為企業落地提供了最大法律彈性。

從外賣巨頭到 AI 基礎設施玩家

美團由王興於 2010 年創立,2015 年與大眾點評合併後成為中國本地生活服務霸主,擁有超過 7.7 億年活躍用戶1,450 萬商家。但面對國內市場競爭加劇和利潤率下滑,美團開始將戰略重心轉向 AI。

自 2025 年底推出 LongCat-Flash(5600 億參數 MoE 模型) 後,美團已連續發布多個版本,並公開承諾投入「數十億美元」於 AI 和國產晶片。LongCat-2.0 的開源,顯示美團的野心不僅是區域電商巨頭,而是成為全球 AI 基礎設施的重要參與者。

企業應用前景

對於現代企業,LongCat-2.0 開啟了清晰的應用場景:

  • 自主程式碼庫遷移:將企業級倉庫和現代 SDK 文件直接投入 100 萬 token 上下文,模型自動映射依賴關係、執行結構更新、編譯新程式碼並在沙箱中除錯
  • 合規敏感任務:透過 MOPD 門控路由,金融或醫療機構可將查詢路由至隔離專家簇,在保持深度推理能力的同時避免幻覺
  • 大規模 Agent 網路:零成本快取讓企業能以極低成本維持自主軟體開發網路,持續優化內部基礎設施

專業點評與未來展望

LongCat-2.0 的發布確實是 AI 領域的一個轉折點,但值得保持理性。

值得肯定的地方

  • 國產 ASIC 訓練兆級模型的成功,證明了供應鏈多元化的可行性
  • LSA 稀疏注意力架構對長上下文問題提供了實用的工程解法
  • MOPD 框架展示了後訓練策略的創新方向
  • MIT 授權 + 免費快取,大幅降低了企業採用門檻

需要觀察的風險

  • 模型高度專注編碼任務,通用能力和安全性仍需更多驗證
  • 國產 ASIC 的具體規格、訓練軟體堆疊和效能細節尚未公開,實際訓練成本與 NVIDIA H100 的比較仍有待第三方評估
  • Flash-sale Token Pack 的限時機制對開發者穩定性可能帶來影響
  • MIT 授權雖對企業友好,但也意味著缺乏像 Apache 2.0 那樣的專利保護條款

「美國對高階模型的出口管制,正在無意中加速全球 AI 基礎設施的多元化。LongCat-2.0 的出現不是偶然,而是政策壓力與技術投入雙重作用的結果。」

長期來看,LongCat-2.0 的意義不在於它能否完全取代 Claude Opus 4.8 或 GPT-5.5,而在於它證明了:近頂尖 AI 模型可以在不完全依賴美國硬體的情況下建構——這對於全球開發者、企業和 AI 政策制定者來說,都是一個值得深思的訊號。

延伸思考與常見問題