視覺生產技術探索和應用

一、視覺生產簡介與理解

（一）定義

就視覺而言一般來說有兩大類：一類是視覺理解，比如檢測、分割等；另外一類是視覺生產，也可以理解為怎麼去產生視覺，指通過一個/一系列視覺過程，產出新的視覺表達。如下圖所示，有兩點需要注意，一是這裡的視覺表達指的是人或機器能夠感知的圖像視頻，而不是標籤或特徵，二是產出新的視覺表達，和輸入是不一樣的視覺表達。在過去，圖中所示的過程大多數由人來完成，比如設計師、美工等用PS等工具完成，現在，我們希望通過技術能夠實現這個過程。

（二）分類

如下圖所示，視覺生產主要包括生成、拓展、摘要、升維，另外還有增強/變換、插入/合成、擦除等。達摩院在該領域已經投入了很多人力和精力，也形成了一些產品，比如鹿班、畫蝶、視覺智能開放平臺等。

（三）通用基礎框架

視覺生產有自己基本的通用框架，如下圖所示。可能在細節上有細微不同，但是一般來講其邏輯是類似的，包括請求（Request）、分發（Dispatch）、服務（Service）和響應（Response）四大部分。

（四）五個關鍵維度

如下圖所示，要保證視覺生產有一個好的結果或者說可用的結果，其至少應滿足可看、合理、多樣、可控、可用五個維度，只有這樣，才能在工業界產生真正的價值，而不僅僅是一個停留於理論的技術。

二、精細理解——尋微入裡

如果想生產一個視覺，首先我們要理解輸入的視覺，也就是需要精細的理解視覺。“理解”其實包括如下幾個過程：

識別：知道是什麼，比如人的識別、物的識別；
檢測：識別+知道在哪，比如缺陷檢測、多目標檢測；
分割：識別+檢測+知道每一個像素是什麼。

其中，視覺分割是生產的必要前置步驟，也是學術界和工業界的一個熱點，同時也是難點，因為進行分割時往往有複雜的背景和各種遮擋關係，或者在分割時對其要求非常高，比如髮絲級、鏤空等，另外還可能面臨邊緣髮色、透明材質、多目標/多尺度進行分割等問題。實際上，分割時遇到的這些難題歸根到底是標註成本高、數據嚴重不足的問題，更進一步，即使標註出來了，但是想要精細得將其分割出來，成本是成倍增加的。

（一）分割摳圖解題思路

如下圖所示，分割摳圖包括不同的層次，從語義分割到實例分割再到Image Matting。

整體來說分割摳圖的過程是比較複雜的，總的來說我們的思路是先拆解再豐富數據樣本，其框架如下圖所示。

（二）分割摳圖效果展示

如下圖所示，通過上面的技術我們在髮絲級的分割和鏤空細節特殊場景等例子中取得了較好的效果。目前，在阿里巴巴內部分割摳圖技術是使用最廣的視覺AI技術。

基於分割摳圖技術，我們可以對分割進行拓展，進行多式多樣的分割，比如對人的分割，可以從圖像中分割出人的頭像、單獨分割出頭髮、單獨分割出人臉等，更進一步，除了靜態圖像的分割，我們甚至對視頻進行分割，在動態的視頻中提取人物。類似的，對於動物分割、車輛分割、商品分割、動畫分割等，我們也可以進行相應的拓展，來豐富我們的分割粒度。另外的，對於場景摳圖，比如天空分割，我們把天空分割出來的同時把人物、物體等分割出來，進行場景分割的拓展。

三、視覺生成——從無到有

在完成分割之後，我們對視覺有了精細的理解，才能夠進行下一步的工作。

（一）視覺生成——鹿班

最早的時候我們做了產品鹿班。鹿班是視覺生成領域在業界落地的先行者，對外提供大規模在線的AI設計服務。它是針對平面圖像設計生成的產品，一開始在阿里巴巴內部大規模使用，目前已經通過阿里巴巴的雲服務對外提供服務。鹿班的視覺生成的框架流程如下圖所示，其大概過程包括理需求、定草圖、選狀態、調細節、生成圖、評好壞6個步驟。

鹿班在多個領域有著廣泛的應用，一開始是在電商領域，主要有以下兩個能力：

照圖生圖：參考原圖，將風格、佈局等信息學習並遷移到目標數據上；
個性化設計：多元化設計風格，結合商品品類、投放場景、目標客群的差異進行定製化設計。

如下圖所示，鹿班還可以用來做場景智能美工，用AI實現場景設計能力，大大降低人力成本。

當然，鹿班的應用不僅是以上幾個行業，它在各行各業都有著廣泛的應用，並且在各個行業的應用都會產生不同的效果，依據場景來進行賦能。

（二）視覺生成——AlibabWood

鹿班主要針對的是平面圖生成，但是實際上更多場景需要的是視頻生成，比如當前流行的短視頻，對此阿里巴巴也設計了AlibabWood這款產品，專注於短視頻的生成，目前已經累計生成了超過2000萬個短視頻，同時還有劇本生成、智能文案生成、自動剪輯、智能音樂推薦等實用功能。AlibabWood的框架流程如下圖所示，總體包括素材準備、基礎特效、智能特效和智能編排四大步驟，包括了眾多技術在內。

AlibabWood有著眾多應用案例，比如場景化智能視頻的生成，還可以規模化生成特效視頻，當然，如下圖所示，在生成了視頻之後，如果有多個視頻，還可以進行視頻摘要的生成以及考慮旁白完整性的智能視頻集錦。

視頻封面的生成也是一個重要的應用，如下圖所示，它可以對視頻內容全自動完成質量審核、內容分析與圖像增強，輸出多幀靜止或者動圖，這個過程用到了圖像增強、內容分析等技術，也是在視頻生成之後一個非常重要的技術應用。

四、視覺編輯——移花接木

一個視頻，能不能變成另外一個？這就要用到視頻編輯技術，主要包括增刪查改等功能。

（一）視頻植入

視頻植入就是在視頻中加入一些本來沒有的內容，如下圖所示，當前其應用最廣泛的就是廣告界。

如下圖所示，視頻植入是一項非常複雜的技術，需要考慮到方方面面，比如廣告位檢測、廣告位跟蹤等等，，有時會遇到遮擋、移出屏幕等複雜情況跟蹤，而且在視頻植入之後還要考慮廣告是否能夠跟視頻細節匹配、光影渲染等問題。

（二）視覺內容擦除

上面視頻植入是增加一些東西到視頻中，有時候我們也要從視頻中擦除一些東西，比如字母擦除、臺標擦除、廣告擦除等等，其核心挑戰是分割，只有更精確的分割才能夠精確的擦除。

（三）畫幅變化

有些時候我們需要對視頻進行修改，比如某段視頻在拍攝的時候是在4：3的情況下進行的，在ipad、PC、手機上面播放的時候出現了尺寸不匹配的情況，這時候就要進行畫幅變化，變化之後為了有完整的視覺效果，需要進行內容補全，如下圖所示。

（四）圖像尺寸變化

為了節省時間和精力，我們還可以進行圖像尺寸的自動變化，這樣子在某一個場景下設計的海報就可以更方便的用在其他場景中。

五、視覺增強——修舊如新

視覺增強就是對視頻的內容進行一些改變，以達到視頻某些方面的改善效果。

（一）視頻增強

對視頻效果的增強稱為視頻增強，如下圖所示，它包括很多技術在內，包括單點核心技術和複合應用技術。

（一）視覺增強實例

人臉修復

人臉是最重要的目標對象，對人像進行細節修復增強，有很重要的意義和價值，如下圖所示，可以用視覺增強技術對人臉進行修復增強，突出主要信息。

渲染圖超分

CG渲染時間幾乎與圖像分辨率成正比，高質量真實感渲染需要30分鐘才能生產一張圖像，針對CG渲染流水線研發的超分辨率技術可以把低分辨率圖像放大到與高清原圖一樣的清晰度。

視頻超分

除了對圖像進行超分外，我們還可以對視頻進行超分，使得視頻更加清晰，增加顯示效果。

視頻插幀

對視頻進行插幀，一般的視頻可能感受不到效果，但是在運動的場景、網絡不好的在線視頻等場景，對視頻進行插幀可以有效的減少視頻的卡頓感。

HDR色彩擴展

除了幀率之外，色彩也是一個很重要的元素，也是視頻高清的一個必要條件，運用視覺增強技術可以很好進行HDR色彩擴展，增強視頻顯示效果。

風格遷移與顏色拓展

視覺增強還可以用來進行風格遷移，比如某些相機軟件，可以將一些名畫的風格遷移到用戶所拍攝的照片上，實現照片的風格多樣化。

另外，視覺增強還可以進行顏色的拓展，比如下圖所示的廣告，可以同時產生不同色彩搭配的廣告，滿足不同的需求和色彩的多樣性。

六、視覺製造——由虛入實

前面所講的基本上都是數字內容，那麼能否將虛擬的和實體的關聯起來呢？當然是可以的，比如下圖所示的包裝設計和服裝設計兩個例子，我們可以利用視覺製造技術來解決實際生產過程中面臨的效率低、協同差、定製難等問題。

視覺製造的核心邏輯如下圖所示。

上面整個過程的用到了多種技術，比如包裝幾何生成、服裝幾何生成、材質紋理的多樣化生成、視覺遷移及融合、多樣性拓展等等。如下圖所示，在得到物體或者商品的模型之後，利用2D3D融合，還可以將其與背景或者其他商品結合在一起，直接渲染效果圖和商品的打樣工作。同時，我們還可以完成從3D到2D的轉換，形成一個閉環，對行業效率有了大大的提升。

七、視覺智能開放平臺——萬劍歸宗

上面所提到的技術都可以在阿里巴巴的視覺智能開放平臺（vision.aliyun.com）上找到，感興趣的可以去嘗試一下。

目前，該平臺已經開放了2個多月，主要包含了如下圖所示的多種能力，包括圖像的和視頻的，有100多種細分能力，實現了場景的全面覆蓋。

該平臺擁有專業、實用、全面、易用4大特點，並且可以進行一站式能力選擇。

除此之外，視覺智能開放平臺在公共雲和專有云上都提供了多項服務，有著強大的供應鏈平臺和基礎設施，可以為用戶提供省心省力的普惠服務。

如下圖所示，針對一些場景，視覺智能開放平臺提供了完整的場景解決方案，比如公共場所口罩佩戴檢測系統（神荼）、視頻自動廣告植入系統、服飾趨勢分析與輔助設計等等。

更多的方法和實例大家可以到視覺智能開放平臺官網查看和詳細瞭解。