企業界早已將 AI 生成的影像、視覺、圖形與影片融入生產流程,但越來越多的數據與主觀評論指向一個嚴峻問題:AI 影像最終看起來缺乏特色、單調乏味,過於缺乏原創性,難以讓品牌及其資產脫穎而出。這被稱為「AI slop」。AI 創意工具 startup Krea 希望改變這一趨勢,透過開放其新前沿 AI 影像模型 Krea 2 的原始權重,提供兩個版本——「Krea 2 Raw」與「Krea 2 Turbo」——在自訂授權下供業界使用。

「AI 應該被視為真正的創意媒介——原始、靈活、不帶偏見、不受約束。」——Krea 官方聲明


技術架構與創新點

Krea 2 系列的核心是一套完全從零構建的架構框架:一個擴展至 120 億參數的 Diffusion Transformer。與為所有下游任務部署單一 heavily fine-tuned 模型不同,Krea 開放了兩個高度差異化的 checkpoint,分別捕捉自模型訓練生命週期的不同里程碑。

核心架構設計

  • 單一流 Transformer 區塊:注意力機制與 MLP 層在文字與影像 token 之間原生共享
  • SwiGLU MLP 層:4 倍擴展因子,最大化運算效率
  • Grouped-Query Attention (GQA):結合 gated sigmoid attention 層穩定訓練動態
  • 3D Axial Rotary Position Embedding (RoPE):跨個別幀、高度與寬度座標的位置編碼

時間步調條件優化

網路以輕量級、每區塊可調偏差項取代傳統每區塊 MLP 模組,成功將總區塊調製參數削減 20% 至 30%,並將該參數預算直接重新分配至核心層。


Krea 2 Raw vs. Krea 2 Turbo:差異與使用情境

特性 Krea 2 Raw Krea 2 Turbo
類型 未蒸餾基礎 checkpoint 蒸餾後訓練變體
推論步數 52 步 8 步
Guidance Scale 3.5 0.0
生成速度 較慢(適合訓練) 約 2 秒
原生解析度 256px 基準 原生 2K
主要用途 訓練 LoRA、領域微調 高速生成、創意發想
精度要求 torch.bfloat16 消費者級硬體可運行

核心工作流程:「在 Raw 上訓練,用 Turbo 生成

創意生產流程中,工程師可使用 Krea 2 Raw 訓練自定義 Low-Rank Adaptations (LoRA) 或領域特定微調。由於 Raw checkpoint 不含任何 baked-in 風格意見或激進的後訓練約束,它能以高保真度與零風格干擾吸收獨特美學方向——例如建築製圖風格、特定品牌資產或複雜燈光設計。

訓練完成後,創作者可將這些精確的 LoRA 直接移植到 Krea 2 Turbo


資料策略與訓練方法

Krea 2 家族的基礎資料集策略依賴混合來源:公開採集資料、第三方授權影像資料庫,以及透過專有生成方法構建的高度精選合成資料集。

關鍵政策:零合成資料政策

在主要預訓練混合中,Krea 執行零合成資料政策。為防止 AI 生成資料導致的上界品質限制與輸出偏見,工程團隊部署基於 DINOv3SigLIP-2 架構的自定義內部過濾分類器,大規模完全清除合成影像。

此外,Krea 在 SigLIP-2 嵌入上訓練 Sparse Autoencoder (SAE),以隔絕並過濾真正的視覺人工產物,同時保留廣泛的風格邊界。


效能基準:AI 影像生成器 API 速度與授權(2026 年中)

模型 / 生成器 開發者 / 平台 平均生成時間 授權與商業使用
FLUX.1 [schnell] Prodia 0.5 秒 開放權重(Apache 2.0)
Z-Image Turbo Replicate / fal.ai 1.8 秒 專有,需 API 合約
Krea 2 Turbo Krea 2.0 秒 開放權重 / 專有混合
Midjourney v8.1 (Turbo) Midjourney 3–6 秒 專有,需訂閱
FLUX.2 [klein] 4B Black Forest Labs 3.9 秒 開放權重
FLUX.2 [klein] 9B Black Forest Labs 4.6 秒 開放權重
MAI Image 2 Efficient Microsoft 4–7 秒 專有,Azure AI Foundry
FLUX.2 [dev] fal.ai / DeepInfra 6.1–6.4 秒 開放權重(非商業)
Krea 2 Large Krea 23.7 秒 專有 / 開放權重
FLUX.2 [max] Black Forest Labs 25.6 秒 專有
GPT-Image-2 OpenAI 200.8 秒 專有

資料來源:Artificial Analysis, Krea, MindStudio


自訂授權條款解析

Krea 2 的開放權重資產在 Krea 2 Community License Agreement 下部署,並配合官方 Acceptable Use Policy

授權層級

層級 定義 授權範圍
Community ≤50 席位 免費商業使用,無需版稅
Enterprise >50 席位 需付費自訂商業授權

關鍵合規要求

所有自託管部署必須在基礎設施層實施內容審查協議。任何開發者或平台託管 Krea 2 模型必須實施主動輸入/輸出分類器或等效內容過濾機制,積極防止生成:

  • 非法材料
  • 非自願親密影像(NCII
  • 兒童性虐待材料(CSAM
  • 誹謗性資產

未部署這些防禦性安全層的開發者即構成合約違約,Krea 有權更新模型權重或完全撤銷对整个模型家族的存取權。


專業點評與未來展望

Krea 2 的發布代表了 AI 影像生成領域的一個重要轉捩點。其獨特價值主張在於將藝術控制權優先於 centralized corporate alignment,這在當前市場中罕見。

核心優勢

  1. 速度與品質的平衡Krea 2 Turbo 的 2 秒生成速度在開放權重模型中極具競爭力
  2. 架構靈活性:Raw/Turbo 雙引擎設計支援「訓練-生成」分離工作流
  3. 資料品質控制:零合成資料政策有助於避免模型崩壞

潛在限制與挑戰

  • 硬體需求Krea 2 Raw 需要大量運算資源,可能限制小型團隊使用
  • 合規負擔:自託管用戶必須實施內容過濾,增加技術複雜度
  • 授權不確定性:「50 席位」門檻雖明確,但企業邊界定義可能產生爭議

長期展望:Krea 透過此發布從 AI 工具供應商轉型為模型供應商。若開放原始碼社群能有效利用 Krea 2 Raw 擴展自定義 LoRA,這可能成為挑戰現有封閉模型的強大替代方案。然而,成功最終取決於社群採用率與持續的模型改進。


延伸思考與常見問題