開發與維運

阿里雲達摩院資深算法專家淺談:視覺生產技術探索及應用

  何為視覺生產?
  在介紹視覺生產之前我們需要給它進行定義,到底什麼是視覺生產。簡單來說視覺生產就是通過一個/一系列視覺過程,產出新的視覺表達。這裡的產出是指人或機器能夠感知的圖像視頻,而不是標籤或者特徵並且必須是新的視覺表達,和輸入的不一樣。在過去,這個過程大多數是由人工來實現,但是現在我們希望通過AI技術,來產生一系列新的圖像,本篇文章主要介紹的也是這一過程。
  總體來說視覺生產是有分類的,主要分為以下幾個分類:生成、拓展、摘要以及升維,生成就是從零到一從無到有的過程,拓展是指1到N的過程,摘要則是和拓展相反,是N到1的過程,將內容濃縮起來,把最主要的信息找出來。而升維就比較特殊,打個比方圖像是2d的形式,但是如果加了時間軸就變成了動態的了,就變成了二維+t,這樣就是從二維升到三維,這一過程稱之為升維。除此以外對圖片的增、刪、改、查的過程也屬於視覺生產範疇。這些視覺生產相關的內容其實我們也都有在做,也上線了一些產品,例如鹿班、alibabawood、畫蝶,以及我們近期上線的視覺智能開放平臺,這些產品都是聚焦在視覺生產上面的,後面也會跟大家詳細介紹。
圖1.png

圖1

  另外視覺生產它也有一個基本的通用框架,具體內容可看圖2,這裡面要著重介紹的是視覺生產引擎部分,因為它是整個框架裡面最為核心的部分。視覺生成引擎一般分成兩大類,一種是生產引擎,基於相關模型去真正的生成一些內容,類似從無到有的一個過程。當然了,還有一種是搜索引擎,解決的思路就是我生產很困難,那麼我去找到或者搜索到一個和我要求一致或者類似的素材然後在對他進行一定的改變,從而得到一個新的素材。對於產出的素材我們也會遵循一定的規範,一般會從可看、合理、多樣、可控以及可用這幾個維度去判斷,其中是否可用是從能否為產品或者平臺帶來用戶以及它的商業價值的角度進行判斷。通過這5個維度能保證我們的視覺生產它可以有一個比較好的結果,或者說比較合理的一個結果。
圖2.png

圖2

  想要生產出一份優質的素材,首先你需要去精細的理解它,因為唯有理解才能生成。理解的階段大致分為識別、檢測以及分割,最終的目的是知道每一個像素是什麼。做分割,事實上這也是學術界和工業界研究很久的任務,但事實上要想把它做好還是非常不容易的。因為分割的話,它會有複雜的背景、各種各樣的遮擋關係以及某些特定場景下特別高的要求。所以在圖片分割上我們進行了深入的研究並制定了相關的模型框架如圖3所示,第一個步就是進行一個mask粗分割,然後我們對這些數據質量非常高標註效果非常好的進行一個精分割的網絡,再將他們結合起來,這樣做的好處是他能夠像粗分割那樣獲取數據,並且結合精確的、細膩的高質量的數據得到一個結果,我們也將這個模型發表到CVPR2020上面,大家有興趣可以去看看。
圖3.png

圖3

  視覺生成技術的應用
  那介紹完視覺生成技術,接下來我們給大家介紹3個視覺生成技術的應用案例。像文章開頭時候說的鹿班(https://luban.aliyun.com)就是我們早些時候針對平面圖像做的一個設計,也算是整個業界中第一個大規模落地的在線AI服務。除了鹿班類的平面圖像生產外,針對視頻我們同樣製作了一款工具,名字叫做AlibabaWOOD(https://alibabawood.aliyun.com),它就專注於短視頻的生成,目前也是一個雲上的公共產品。詳細的平臺介紹可以點擊產品官網鏈接進行查看。
圖4.png

圖4

  視頻既然可以通過視覺生產去製作,我們也在思考通過視覺生產能否對現有的視頻進行處理呢?答案是可以的。
  我這裡舉個例子,如圖5紅線框的位置它本來沒有東西,但是為了達到廣告投放效果又不影響觀看者的觀看體驗,我們通過視覺生產的方式在視頻中插入了一個廣告,從而實廣告和內容融合在一起。
圖5.png

圖5

  前面說了這麼多視覺生產技術,其實我們已經將這些技術形成的算法沉澱在了統一的平臺上。阿里雲視覺智能開放平臺(https://vision.aliyun.com)截止現在,這個平臺已經上線了100+的AI算法,這些算命法主要是通過API的方式實現調用。平臺目前處於公測期,所有的AI算法都是免費開放的,也歡迎廣大開發者前來調用,創建更多有價值的產品和解決方案!
圖6.png

圖6

  以上內容只是星瞳此次分享的一部分,由於篇幅原因,其他內容就不在這裡展示了,感興趣的同學可以點擊下方的視頻鏈接進行觀看。如果在觀看期間有視覺相關的疑問,都可通過釘釘搜索23109592進群和我們溝通。
直播回看鏈接:https://edu.csdn.net/course/play/28249/388355

Leave a Reply

Your email address will not be published. Required fields are marked *