視覺生產技術
1. 定義和分類
1.1 視覺生產——定義
-
視覺一般分為兩大類
- 視覺理解:檢測、識別、分割等等
-
視覺生產:怎麼產生視覺【通過一個/一系列視覺過程,產出新的視覺表達】
- 產出:人或機器能夠感知的圖像視頻,而不是標籤或特徵
- 要求:新的,和輸入不一樣的
1.2 視覺生產——分類
- 生成:從0到1
- 拓展:從1到N
- 摘要:從N到1
- 升維:從An到An+1
- 增強/變換:從A到B
- 插入/合成:A+B=C
- 擦除:A-B=C
1.3 視覺生產——通用基礎框架
1.4 視覺生產——五個關鍵維度
- 滿足視覺/美學表現
- 合乎語義/內容邏輯
- 保證結果的豐富性
- 提供用戶預期的抓手【可控】
- 帶來用戶/商業價值【可用】
2. 精細理解——尋微入裡
人要先認知世界才能再改造世界
2.1 精細理解——分割摳圖
- 識別:知道是什麼
- 檢測:識別 + 知道在哪兒
- 分割:識別 + 檢測 + 知道每一個像素是什麼
視覺分割是生產的必要前提步驟
唯能理解,方能生成
2.2 分割摳圖——難點
- 複雜背景
- 遮擋
- 髮絲精摳、
- 邊緣反色
- 透明材質、
- 多尺度/目標
數據嚴重不足,標註成本高
2.3 分割摳圖——解題思路
- 複雜問題拆解:粗mask設計 + 精準matting
- 豐富數據樣本:設計圖像mask統一模型
2.4 分割摳圖——模型框架
2.5 分割摳圖——人像摳圖
2.6 分割摳圖——物體摳圖
由於每個圖的細節等有所不同,所以想用一個model實現分割所有的圖是不太可能的
2.7 分割摳圖——場景摳圖
3. 視覺生成——從無到有
3.1 視覺生成——框架流程
3.2 視覺生成——電商設計
-
照圖生圖
- 參考原圖,將風格、佈局等信息學習並遷移到目標數據上
-
個性化設計
- 多元化設計風格,結合商品品類、投放場景、目標客群的差異進行定製化設計
3.3 視覺生成——場景智能美工
- IN:營銷場景 + 原始素材
- OUT:營銷圖片
- 調用方式:API
3.4 視覺生成——AlibabaWood
- 一鍵生成短視頻:https://alibabawood.aliyun.com/
3.5 視覺生成——框架流程
4. 視覺編輯——移花接木
4.1 視頻植入
- 目前大部分廣告都是與內容無關的,對用戶不太友好,視頻植入手段可將廣告植入到視頻中,提升用戶體驗
4.2 視覺編輯——植入位檢測與定位
4.3 視覺編輯——動態檢測分割
- 單獨分割
- 遮擋關係等
4.4 視覺編輯——視頻內容擦除
4.5 視覺編輯——文字擦除
4.6 視覺編輯——畫幅變化
4.7 視覺編輯——圖像尺寸變化
- 在不同場合圖像尺寸可以自動變化
5. 視覺增強——修舊如新
5.1 視覺增強——視頻增強
5.2 視覺增強——人臉修復增強
- 人臉是最重要的目標對象,對人像進行細節修復增強,有很重要的意義和價值
- eg:老照片修復
5.3 視覺增強——渲染圖超分
- CG渲染時間幾乎與圖像分辨率成正比,高質量真實感渲染需要30分鐘才能產生一張圖像
- 針對CG渲染流水線研發的超高分辨率技術可以把低分辨率圖像放大到與高清原圖一樣的清晰度
5.4 視覺增強——HDR色彩擴展
5.5 視覺增強——風格遷移
5.5 視覺增強——顏色拓展
6. 視覺製造——由虛入實
6.1 實體設計製造
- 效率低:多次打樣,多次溝通
- 協同差:設計、營銷、生成脫節、倒置
- 定製難:無法實現柔性生產
6.2 視覺製造——核心邏輯
6.3 視覺製造——幾何生成
- 包裝幾何生成
- 服裝幾何生成
6.4 視覺增強——材質工藝
6.5 視覺增強——視覺遷移及融合
6.6 視覺製造——多樣性拓展
6.7 視覺製造——2D 3D融合
7. 視覺開放平臺——萬劍歸宗
- 官網:vision.aliyun.com