雲計算

達摩院視覺AI助力商家制作海量雙十一宣傳海報

從達摩院宣佈成立起,這個阿里的“神祕機構”就備受外界關注。造福人類,世界第一,高端,神祕……這些標籤也讓我們對達摩院的技術專家產生了好奇。

在外界人眼中,達摩院人才濟濟,大多是奇人異士,做著神祕且高端的研究。不曾想,這群有如掃地僧一般的神祕專家們竟然做了一個百寶箱——阿里雲視覺智能開放平臺(vision.aliyun.com),將研究出來的各種人臉識別,圖像識別等視覺AI能力都開放了出來!打開百寶箱可以看到他們已經做了人臉識別,文字識別,商品理解,內容安全,圖像識別,圖像增強,圖像分割,目標檢測等140+種視覺AI能力,全都可以通過API的形式調用!就拿其中一項來說你會發現大牛們用圖像分割的視覺AI能力,把摳圖玩轉得爐火純青,而且這一切都朝著不受控制的方向發展了......

你看看,萬物皆可摳!
1.gif

部分圖片來源淘寶商品圖

達摩院大牛們為什麼要開始研究摳圖?

這要從阿里巴巴智能設計實驗室自主研發的一款設計產品鹿班說起。鹿班的初衷是改變傳統的設計模式,使商家在短時間內完成大量banner圖、海報圖和會場圖的設計,提高工作效率。並且通過鹿班製圖可以、傳達高質視覺效果,從而提升商品吸引力和買家視覺體驗,達到提升商品轉化率的目的。而在製圖的過程中,商品摳圖是一項不可避免且繁瑣的工作,一張人像精細摳圖平均需要耗費設計師2h以上的時間,這樣無需創意的純體力工作亟需被AI所取代,所以摳圖算法應運而生。
近幾年圖像摳圖算法逐漸進入人們的視野,如騰訊(天天P圖)、百度(人像摳圖、汽車分割)等。而潛藏在其背後的行業:泛文娛,電商行業、垂直行業,諸如在線餐飲、媒體、教育等行業商業價值不容小覷,可以滿足各種戰報、在線課程教師摳圖、視頻封面製作等不同形式的圖片製作需求拓展。市面上的一些摳圖算法效果在人像髮絲細節處理均不是很好,且對一些通用場景(電商等)支持也不是很好。達摩院大牛們針對這兩個問題一方面設計更具有泛化能力的系統、一方面深化髮絲和高度鏤空相關算法,均有更好的效果。

遇到的難題和解決方案

最開始在上手鹿班“批量摳圖”需求時,達摩院大牛們發現用戶上傳的圖像質量、來源、內容五花八門,想用一個模型實現業務效果達到一勞永逸很難。在經過對場景和數據的大量分析後,定製整體框架如下:
2.jpg

主要涵蓋了過濾、分類、檢測、分割四個模塊:

  • 過濾:濾掉差圖(過暗、過曝、模糊、遮擋等),主要用到分類模型和一些基礎圖像算法;
  • 分類:瓶飲美妝等品類商品連通性比較好,3C、日用、玩具等品類則反之,另外場景(如人頭、人像、動物)需求也是各具差異,故而設計不同的分割模型提升效果;
  • 檢測:在鹿班場景用戶數據多來自於商品圖,很多是經過高度設計的圖像,一圖多商品、多品類、主體佔比小,也不乏文案、修飾、logo等冗餘信息,增加一步檢測裁剪再做分割效果更精準;
  • 分割:先進行一層粗分割得到大致mask,再進行精細分割得到精確mask,這樣一方面可以提速,一方面也可以精確到髮絲級;

如何讓效果更精準?

目前分類、檢測模型相對比較成熟,而評估模型則需要根據不同場景做一些定製(電商設計圖、天然攝影圖等),分割精度不足,是所有模塊中最薄弱的一個環節,因此成為了達摩院大牛們的主戰場。以下是來自他們的自我闡述:‘’

  • 分類模型:分類任務往往需要多輪的數據準備,模型優化,數據清洗才能夠落地使用。據此,我們設計完成了一個自動分類工具,融合最新的優化技術,並借鑑autoML的思想,在有限GPU資源的情況下做參數和模型搜索,簡化分類任務中人員的參與,加速分類任務落地。
  • 評估模型:直接使用迴歸做分數擬合,訓練效果並不好。該場景下作為一個前序過濾任務,作為分類問題處理則比較合理。實際我們也採用一些傳統算法,協助進行過暗、過曝等判斷。
  • 檢測模型:主要借鑑了FPN檢測架構。1、對特徵金字塔每一層featuremap都融合上下相鄰層特徵,這樣輸出的特徵潛在表徵能力更強;2、特徵金字塔不同層特徵分別預測,候選anchors可增加對尺度變化的魯棒性,提升小尺度區域召回;3、對候選anchor的設定增加一些可預見的scale,在商品尺寸比例比較極端的情況下大幅提升普適性;
  • 分割融合模型:參考論文http://openaccess.thecvf.com/content_CVPR_2019/html/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.html

與傳統的只需要分別前景、背景的圖像分割(segmentation)問題不同,高精度摳圖算法需要求出某一像素具體的透明度是多少,將一個離散的0-1分類問題變成[0, 1]之間的迴歸問題。
在我們的工作中,針對圖像中某一個像素p,我們使用這樣一個式子來進行透明度預測:

α_p=β_p F ̅_p+(1-β_p ) 〖(1-B ̅〗_p)

其中F ̅_p和B ̅_p分別代表了這個像素屬於前景和背景的概率,β_p是混合權重。我們的網絡可整體分為兩部分,分割網絡和融合網絡,如下圖:
3.png

分割網絡:我們使用了在圖像分割任務中常用的編-解碼器結構作為我們的基礎結構,但與傳統結構不同,我們的網絡中使用了雙解碼器分別來預測前、背景概率F ̅_p 〖和B ̅〗_p。如果像素p在圖像的實心區域(透明度為0或1),我們預測像素透明度的真實值;如果p在圖像的半透明區域(透明度值在0到1之間),我們預測像素透明度真實值的上下界。通過在半透明區域使用加權的交叉熵損失函數,使F ̅_p 〖和B ̅〗_p的值相應升高,即可將透明度的真實值“包裹”在〖[1-B ̅〗_p 〖,F ̅〗_p]這一區間中。
4.png

右圖中紅色部分即是被前背景概率包住的像素
融合網絡:由數個連續卷積層構成,它負責預測混合權重β_p。注意,在圖像的實心區域,像素的前背景預測往往容易滿足F ̅_p 〖+B ̅〗_p=1這一條件,此時α_p對β_p求導恆為0,這一良好性質令融合網絡在訓練時可以自動“聚焦”於半透明區域。“

結語:

你看,經過達摩院大牛們的深耕細作,摳圖這麼一件複雜的事兒,就輕輕鬆鬆的解決了。除摳圖之外,其他視覺AI能力都沉澱在阿里雲視覺智能開放平臺(vision.aliyun.com)上,其中也不乏像支付寶,天貓,淘寶這樣的巨星級應用的精品視覺AI能力,為廣大用戶提供好用、易用、普惠的視覺智能API服務。技術與應用相互作用,最後沉澱更替,集合在這一小小寶箱中,目前平臺免費開放140+種AI能力的調用權限,別猶豫啦,快來體驗吧!

在線免費體驗百種AI能力:【點此跳轉】

釘釘掃描下方二維碼,進群免費對接百種AI能力

一群二維碼.jpg

Leave a Reply

Your email address will not be published. Required fields are marked *