企業界早已將 AI 生成的影像、視覺、圖形與影片融入生產流程,但越來越多的數據與主觀評論指向一個嚴峻問題:AI 影像最終看起來缺乏特色、單調乏味,過於缺乏原創性,難以讓品牌及其資產脫穎而出。這被稱為「AI slop」。AI 創意工具 startup Krea 希望改變這一趨勢,透過開放其新前沿 AI 影像模型 Krea 2 的原始權重,提供兩個版本——「Krea 2 Raw」與「Krea 2 Turbo」——在自訂授權下供業界使用。
「AI 應該被視為真正的創意媒介——原始、靈活、不帶偏見、不受約束。」——Krea 官方聲明
技術架構與創新點
Krea 2 系列的核心是一套完全從零構建的架構框架:一個擴展至 120 億參數的 Diffusion Transformer。與為所有下游任務部署單一 heavily fine-tuned 模型不同,Krea 開放了兩個高度差異化的 checkpoint,分別捕捉自模型訓練生命週期的不同里程碑。
核心架構設計
- 單一流 Transformer 區塊:注意力機制與
MLP層在文字與影像 token 之間原生共享 - SwiGLU MLP 層:4 倍擴展因子,最大化運算效率
- Grouped-Query Attention (GQA):結合 gated sigmoid attention 層穩定訓練動態
- 3D Axial Rotary Position Embedding (RoPE):跨個別幀、高度與寬度座標的位置編碼
時間步調條件優化
網路以輕量級、每區塊可調偏差項取代傳統每區塊 MLP 模組,成功將總區塊調製參數削減 20% 至 30%,並將該參數預算直接重新分配至核心層。
Krea 2 Raw vs. Krea 2 Turbo:差異與使用情境
| 特性 | Krea 2 Raw | Krea 2 Turbo |
|---|---|---|
| 類型 | 未蒸餾基礎 checkpoint | 蒸餾後訓練變體 |
| 推論步數 | 52 步 | 8 步 |
| Guidance Scale | 3.5 | 0.0 |
| 生成速度 | 較慢(適合訓練) | 約 2 秒 |
| 原生解析度 | 256px 基準 | 原生 2K |
| 主要用途 | 訓練 LoRA、領域微調 |
高速生成、創意發想 |
| 精度要求 | torch.bfloat16 |
消費者級硬體可運行 |
核心工作流程:「在 Raw 上訓練,用 Turbo 生成」
創意生產流程中,工程師可使用 Krea 2 Raw 訓練自定義 Low-Rank Adaptations (LoRA) 或領域特定微調。由於 Raw checkpoint 不含任何 baked-in 風格意見或激進的後訓練約束,它能以高保真度與零風格干擾吸收獨特美學方向——例如建築製圖風格、特定品牌資產或複雜燈光設計。
訓練完成後,創作者可將這些精確的 LoRA 直接移植到 Krea 2 Turbo。
資料策略與訓練方法
Krea 2 家族的基礎資料集策略依賴混合來源:公開採集資料、第三方授權影像資料庫,以及透過專有生成方法構建的高度精選合成資料集。
關鍵政策:零合成資料政策
在主要預訓練混合中,Krea 執行零合成資料政策。為防止 AI 生成資料導致的上界品質限制與輸出偏見,工程團隊部署基於 DINOv3 與 SigLIP-2 架構的自定義內部過濾分類器,大規模完全清除合成影像。
此外,Krea 在 SigLIP-2 嵌入上訓練 Sparse Autoencoder (SAE),以隔絕並過濾真正的視覺人工產物,同時保留廣泛的風格邊界。
效能基準:AI 影像生成器 API 速度與授權(2026 年中)
| 模型 / 生成器 | 開發者 / 平台 | 平均生成時間 | 授權與商業使用 |
|---|---|---|---|
| FLUX.1 [schnell] | Prodia | 0.5 秒 | 開放權重(Apache 2.0) |
| Z-Image Turbo | Replicate / fal.ai | 1.8 秒 | 專有,需 API 合約 |
| Krea 2 Turbo | Krea | 2.0 秒 | 開放權重 / 專有混合 |
| Midjourney v8.1 (Turbo) | Midjourney | 3–6 秒 | 專有,需訂閱 |
| FLUX.2 [klein] 4B | Black Forest Labs | 3.9 秒 | 開放權重 |
| FLUX.2 [klein] 9B | Black Forest Labs | 4.6 秒 | 開放權重 |
| MAI Image 2 Efficient | Microsoft | 4–7 秒 | 專有,Azure AI Foundry |
| FLUX.2 [dev] | fal.ai / DeepInfra | 6.1–6.4 秒 | 開放權重(非商業) |
| Krea 2 Large | Krea | 23.7 秒 | 專有 / 開放權重 |
| FLUX.2 [max] | Black Forest Labs | 25.6 秒 | 專有 |
| GPT-Image-2 | OpenAI | 200.8 秒 | 專有 |
資料來源:Artificial Analysis, Krea, MindStudio
自訂授權條款解析
Krea 2 的開放權重資產在 Krea 2 Community License Agreement 下部署,並配合官方 Acceptable Use Policy。
授權層級
| 層級 | 定義 | 授權範圍 |
|---|---|---|
| Community | ≤50 席位 | 免費商業使用,無需版稅 |
| Enterprise | >50 席位 | 需付費自訂商業授權 |
關鍵合規要求
所有自託管部署必須在基礎設施層實施內容審查協議。任何開發者或平台託管 Krea 2 模型必須實施主動輸入/輸出分類器或等效內容過濾機制,積極防止生成:
- 非法材料
- 非自願親密影像(
NCII) - 兒童性虐待材料(
CSAM) - 誹謗性資產
未部署這些防禦性安全層的開發者即構成合約違約,Krea 有權更新模型權重或完全撤銷对整个模型家族的存取權。
專業點評與未來展望
Krea 2 的發布代表了 AI 影像生成領域的一個重要轉捩點。其獨特價值主張在於將藝術控制權優先於 centralized corporate alignment,這在當前市場中罕見。
核心優勢
- 速度與品質的平衡:
Krea 2 Turbo的 2 秒生成速度在開放權重模型中極具競爭力 - 架構靈活性:Raw/Turbo 雙引擎設計支援「訓練-生成」分離工作流
- 資料品質控制:零合成資料政策有助於避免模型崩壞
潛在限制與挑戰
- 硬體需求:
Krea 2 Raw需要大量運算資源,可能限制小型團隊使用 - 合規負擔:自託管用戶必須實施內容過濾,增加技術複雜度
- 授權不確定性:「50 席位」門檻雖明確,但企業邊界定義可能產生爭議
長期展望:Krea 透過此發布從 AI 工具供應商轉型為模型供應商。若開放原始碼社群能有效利用 Krea 2 Raw 擴展自定義
LoRA,這可能成為挑戰現有封閉模型的強大替代方案。然而,成功最終取決於社群採用率與持續的模型改進。