當全球頂尖 AI 實驗室競相將模型參數推向數千億甚至數兆的規模時,一家由前 MIT 電腦科學家創立的新創公司 Liquid AI 卻選擇了截然不同的道路。他們最新發布的 LFM2.5-230M 僅擁有 2.3 億個參數,體積不到 400MB,卻在資料擷取(Data Extraction)與工具呼叫(Tool Calling)等特定任務上,擊敗了參數量達其四倍以上的模型——包括阿里巴巴的 Qwen3.5-0.8B 與 Google 的 Gemma 3 1B。更關鍵的是,這個模型能在 Samsung Galaxy S25 Ultra 上達到每秒 213 個 token 的解碼速度,甚至在一塊 Raspberry Pi 5 上仍能維持每秒 42 個 token 的表現。這不僅是一次技術展示,更是對整個產業發出的訊號:邊緣裝置不需要龐大的算力或持續的雲端連線,就能執行複雜的多步驟代理工作流程。
技術架構與創新點:LFM2 框架如何以小搏大
LFM2.5-230M 最核心的差異化優勢在於它完全跳脫了標準 Transformer 架構。它採用 Liquid AI 自研的 LFM2 框架,這是一套混合式系統,將閘控短程卷積(Gated Short-Range Convolutions) 與分組查詢注意力(Grouped-Query Attention) 交錯排列,藉此高效處理資訊。
對於追蹤高效架構演進的開發者而言,Liquid AI 的做法與業界趨勢一致:在邊緣硬體上有效管理長上下文與序列資料,同時避免純注意力機制帶來的二次方記憶體成本。
這套架構帶來幾個顯著的技術優勢:
- 32K 上下文視窗:儘管模型極小,仍支援高達 32,000 個 token 的上下文長度,足以處理大量文件或連續的機器人遙測資料流。
- 極低記憶體佔用:整體記憶體足跡低於 400MB,遠低於同級甚至更小參數量的
Transformer模型。 - 預訓練資料密度驚人:Liquid AI 將 19 兆個 token 的預訓練資料壓縮進 2.3 億參數的模型中,這代表極高的知識密度與資料利用效率。
以下是 LFM2.5-230M 在不同硬體平台上的推論速度表現:
| 硬體平台 | 處理器 | 解碼速度(tokens/sec) |
|---|---|---|
| Samsung Galaxy S25 Ultra | Qualcomm Snapdragon Gen4 CPU |
213 |
| Raspberry Pi 5 | ARM Cortex-A76 | 42 |
這樣的速度表現意味著,即使在最受限的邊緣裝置上,模型也能提供近乎即時的回應,這對於機器人控制、IoT 感測器資料處理等即時性要求高的應用場景至關重要。
基準測試解析:在正確的戰場上贏得勝利
必須客觀指出,LFM2.5-230M 並非通用型模型,它不是設計來與 VibeThinker-3B 比拼數學推理,或與 Gemma 4 系列競爭創意寫作。Liquid AI 自身也明確承認這一限制。然而,在其目標領域——資料擷取與工具呼叫——它的表現堪稱碾壓。
| 基準測試 | LFM2.5-230M (230M) | IBM Granite 4.0-350M (350M) | Alibaba Qwen3.5-0.8B (800M) | Google Gemma 3 1B IT (1B) |
|---|---|---|---|---|
BFCLv3(工具呼叫) |
43.26 | 39.58 | — | 16.61 |
CaseReportBench(資料擷取) |
22.51 | — | 遠低於 LFM2.5 | — |
從上表可以清楚看到:
- 在
BFCLv3工具呼叫基準測試中,LFM2.5-230M以 43.26 的分數大幅領先Gemma 3 1B IT的 16.61,後者的參數量是前者的四倍以上。 - 即使與參數量更接近的
IBM Granite 4.0-350M相比,LFM2.5-230M仍以更少的參數取得更高的分數。 - 在
CaseReportBench資料擷取測試中,它同樣徹底擊敗了參數量為其 3.5 倍的Qwen3.5-0.8B。
這些數據證明了一個核心論點:在特定、明確定義的任務上,架構效率與針對性訓練可以完全彌補甚至超越暴力式的參數堆疊。
產業衝擊與市場潛力:企業為何需要「AI ETL」
要理解為什麼一個 2.3 億參數的模型對企業如此重要,我們需要回到企業資料處理的現實痛點。
傳統上,企業仰賴嚴格的、基於規則的 ETL(Extract, Transform, Load) 腳本來搬移與處理資料。但這些老舊系統出了名地脆弱——一份文件排版的微小改動、一次資料庫結構(Schema)的更新,就可能導致整條資料管線崩潰。產業正因此轉向所謂的「AI ETL」,讓機器學習模型自動推斷資料映射、偵測結構漂移,並自適應地應對變化。
在這個脈絡下,LFM2.5-230M 的價值主張就非常清晰:
- 成本考量:用旗艦級模型如
Claude Opus 4.6(每百萬輸入 token 收費 5 美元)來解析日常發票、格式化地址或路由遙測資料,在經濟上完全不可行。LFM2.5-230M能在本地硬體上以極低的運算成本完成同樣的工作。 - 延遲與隱私:直接在裝置端運行意味著零網路延遲,且敏感資料永遠不需離開企業的本地環境,這對金融、醫療等高度監管的產業尤為重要。
- 離線運作能力:邊緣部署意味著即使在沒有網路連線的環境下(如偏遠工廠、野外作業現場),AI 驅動的資料處理仍能持續運作。
Liquid AI 甚至展示了更進階的應用:他們將 LFM2.5-230M 部署在 Unitree G1 人形機器人上,透過機器人搭載的 NVIDIA Jetson Orin 計算模組,模型能將自由格式的自然語言指令(例如「靜止 2 秒,然後以每秒 1 公尺的速度向前走 3 公尺,單膝跪地保持 5 秒,再以每秒 0.5 公尺的速度後退 3 公尺」)自動轉譯為結構化的多步驟執行計畫,呼叫 NVIDIA SONIC 框架提供的底層技能。
授權策略解析:精心設計的商業護城河
LFM2.5-230M 採用 LFM Open License v1.0,這是一個值得仔細研究的授權框架。儘管名稱中包含「Open」,但它並非符合開源促進會(OSI)標準的開源授權,而是一個受限制的雙重用途商業框架:
- 免費層:獨立開發者、研究人員及年營收低於 1,000 萬美元 的企業,可獲得永久、全球性、免權利金的授權,自由複製、修改與散布模型。
- 付費層:年營收達到或超過 1,000 萬美元的企業,必須與 Liquid AI 協商另行簽訂付費商業協議。
這套策略的精妙之處在於:它在草根開發者層級廣泛播種,建立生態系與社群依賴,同時設下明確的商業門檻,防止大型科技巨頭免費吸收其智慧財產。這是一種在「開放」與「商業保護」之間取得平衡的務實做法。
模型的基礎版與後訓練版已即刻在 Hugging Face 上架,並於發布首日即支援 llama.cpp (GGUF)、MLX、vLLM、SGLang 和 ONNX 等主流推論框架,大幅降低了開發者的採用門檻。
專業點評與未來展望
Liquid AI 的 LFM2.5-230M 代表了 AI 產業中一條與「暴力擴展」截然不同的技術路線:架構效率優先。在 2026 年中,我們正見證「小模型文藝復興」——從微博的 VibeThinker-3B 以 30 億參數在數學推理上挑戰 6,000 億參數的巨獸,到 Google Gemma 4 家族累計突破 2 億次下載——市場已經清楚表明,並非所有任務都需要最大、最昂貴的模型。
長遠影響:
- 邊緣 AI 代理的普及化:當一個不到 400MB 的模型就能在手機上以每秒 213 個 token 的速度執行工具呼叫,我們離每個智慧裝置都擁有一個本地 AI 代理的未來又近了一步。
- AI 部署成本的結構性下降:對於中小企業而言,不再需要為日常資料處理任務支付高昂的雲端 API 費用,這將顯著降低 AI 導入的門檻。
- 專精化模型的崛起:
LFM2.5-230M的成功案例將激勵更多團隊開發針對特定任務高度優化的小型模型,而非追求「一個模型解決所有問題」的通用路線。
局限性與風險:
- 任務範圍狹窄:這個模型明確不適用於推理、數學、程式碼生成或創意寫作等複雜認知任務。企業若誤用於超出其設計範圍的場景,可能得到品質極差的輸出。
- 基準測試的選擇性:Liquid AI 選擇在
BFCLv3和CaseReportBench上展示成績,這些都是其模型最擅長的領域。在更廣泛的通用基準測試上,它幾乎不可能與更大的模型競爭。 - 授權模式的灰色地帶:1,000 萬美元的營收門檻在實務上可能引發爭議——例如,一家年營收 900 萬美元的快速成長新創,在跨過門檻的瞬間是否需要立即停止使用?這類過渡期的法律風險需要更明確的界定。
- 生態系統依賴:儘管
LFM2架構展現了優異的效率,但它畢竟是一個非標準的專有架構,長期而言,開發者需要評估是否願意將關鍵工作流程綁定在一個相對小眾的技術棧上。
總結而言,LFM2.5-230M 不是要取代任何旗艦模型,它的意義在於證明了**「正確的架構 + 正確的訓練資料 + 正確的任務定位」這個組合,可以在極小的參數預算下創造出不成比例的巨大價值**。對於需要在邊緣裝置上執行結構化資料擷取與代理工作流程的企業與開發者來說,這可能是目前最值得關注的選項之一。