用對話就能剪影片：Google Gemini Omni Flash API 如何顛覆企業影片製作

對大多數企業而言，製作一支 90 秒的訓練影片或產品介紹，從來不是件簡單的事。它需要精心規劃的企劃、內部或外部的攝影團隊、拍攝、剪輯，以及反覆修改。只要法律部門因為一個螢幕上的文字修改要求，整個流程就得重來一次。成本高昂、時程冗長，這就是為什麼許多企業內部影片永遠做不出來的根本原因。

現在，Google 準備用 Gemini Omni Flash 重新寫下這個公式。作為新一代「Omni」系列的首款模型，這套 API 版在 I/O 2026 向消費者亮相後，正式向開發者與企業客戶開放。它的核心賣點不僅是更聰明的文字轉影片，而是能夠透過對話直接編輯已完成的影片片段——這意味著行銷或學習發展團隊不再需要預訂重拍，而是發送一則修改註解即可。

從五個工具到一次對話

過去，許多團隊是「硬湊」出 AI 影片：用一個 LLM 寫腳本、用文字轉圖片模型生成畫面、用圖片轉影片模型生成動畫、再用單獨的嘴型同步工具和語音生成器拼接。每個工具都有自己的合約、計費系統和資料處理路徑。

Omni 的企業級主張是整合。一個模型，輸入文字、圖片和影片，輸出成品影片搭配同步語音。

關鍵洞察： 將多個獨立工具壓縮為單一模型，意味著更少的供應商、更少的合約管理，以及更集中的輸出監控與資料處理規範。對於那些因為工具拼接的成本門檻而避免使用生成式影片的組織來說，這個方程式徹底改變了。

對話式剪輯的核心優勢在於每次指令都建立在上一次的基礎上。行銷人員可以重新打光產品拍攝、重新構圖、或更換服裝，而不必從頭重新生成，也不會失去已經完善的片段。

多模態參考與品牌資產的「物理引擎」

Omni 接受的遠不止文字提示。除了描述你想要的畫面，你可以額外提供多張參考圖片和既有影片片段，模型會將這些細節帶入最終結果。

舉例來說，給它一張特定產品的照片，要求將該產品放入場景中，模型會還原出該產品真正的色彩和大致形狀，而不是生成一個通用的替代品。雖然未必達到像素級的完美，但已經足夠辨識。

兩個 Google 強調的特色直接對應企業需求：

世界模型 (World Model)：對物理場景行為的理解。例如在既有畫面中加入小雨和積水，模型會自動在濕漉漉的地面上呈現人物和物體的反射，這種物理一致性正是區分真實影像與明顯 AI 影像的關鍵。
文字與標誌插入：你可以要求模型將場景中的路標文字替換為其他語言、或替換為特定品牌，甚至將公司 Logo 嵌入場景。不過測試結果顯示，在複雜場景中的文字追蹤並非每次都完美，有些文字會在幀間跳回原始語言。

狀態式 API 與技術限制的現實

Omni Flash 底層運行於 Google 全新的 Interactions API，這是一個專為多輪任務設計的狀態式介面。每一次對話都保留前一次的影片和參考資料，讓修改能夠持續累積。開發者可以串接多個生成步驟：先生成一段影片，再將其中的貓修改為小美洲獅，接著將風格轉換為 8 位元復古，最後轉為水彩風格，並儲存每個版本以便後續分支。

不過，技術限制仍然明確，預算規劃時必須納入考量：

單段影片上限 10 秒：若要生成更長的影片，必須分段生成後再拼接
上傳素材同樣受限於 10 秒：且使用者必須擁有權
Google 的模型說明文件坦承： 在修改中維持一致性、以及精準渲染文字，仍然是待解決的開放性問題

安全防護與 Google 劃下的界線

對企業資訊安全主管而言，示範影片不如底層的安全機制重要。Omni 的每段影片都內建 Google 的 SynthID 數位浮水印，同時擴展 C2PA Content Credentials 來標記生成工具產出的內容。Google 也推出了 AI 內容檢測 API，可標記 AI 生成的媒體——無論是 Google 自家還是其他供應商的產出。

Google 也明確劃下了界線：該模型不會接受一張人物靜態照片加上音訊檔案，再將唇形同步為說話的影片。這是有意識地限制深度偽造的手段。但它可以接受一段說話錄音，然後將其翻譯為其他語言——這對於全球企業培訓內容的在地化是一個非常實用的路徑。

定價、解析度與當前市場定位

Omni Flash 的定價極具侵略性。以 720p 解析度計，每段生成影片每秒 $0.10 美元，換算一支 10 秒的影片約 1 美元。

解析度	Gemini Omni Flash	Veo 3.1 Lite	Veo 3.1 Fast	Veo 3.1
720p	$0.10	$0.05	$0.10	$0.40
1080p	—	$0.08	$0.12	$0.40
4K	—	—	$0.30	$0.60

Omni Flash 目前僅支援 720p，這是它與 Veo 3.1 系列的核心差異。對於企業內部培訓和大多數社群影片，720p 已經足夠。但若用於大螢幕播放的高階品牌工作，這確實是道天花板。

影片長度為 3 至 10 秒，支援橫向 (16:9) 和縱向 (9:16)。作為參考輸入，模型接受最多 7 張圖片和最多 3 段不超過 3 秒的影片片段。尚未接受音訊輸入，但生成時會同步產出音訊。輸出格式為標準 MP4，每段都內建 SynthID 浮水印與 C2PA 憑證。

在品質方面，初期訊號強烈。在 LMArena Text-to-Video Arena 排行榜上，Omni Flash 以 1527 分的成績排名第一。

專業點評：成本與價值的新方程式

有了實際定價，迭代成本變得具體。每次對話式修改都是一次新的生成，所以修改密集的 session 仍然會累積費用。Omni 改變的不是修改的成本，而是浪費的修改次數——因為上下文跨輪次保留，這些生成都用在改良一個「大部分已經可行」的版本，而不是從空白提示重新開始。

Omni Flash 並非這個領域的唯一選項。Veo 3.1 仍然是 Google 當你需要更高解析度時的生產級選擇，而來自 ByteDance、Alibaba 和 OpenAI 的競爭對手都在追逐相同的市場。Omni 真正adds 的是編輯能力本身：將影片視為一份「活的文件」，而不是一次性渲染的成品。

我的觀察： 這確實是企業 AI 影片工作流的重大轉折點。對話式剪輯讓非技術人員也能參與影片製作，但 10 秒的上限和 720p 的解析度天花板，意味著它目前仍適用於中短內容和內部用途，而非高端品牌大片。對於想嘗試但尚未建立 AI 影片流程的企業來說，這是一個低風險的起點。