--------點擊屏幕右側或者屏幕底部“+訂閱”,關注我,隨時分享機器智能最新行業動態及技術乾貨----------
影視劇摳圖亂象頻出,AI 摳圖以假亂真
這幾年,影視劇摳圖亂象頻出,粗糙、簡陋的摳像操作所呈現出的“一毛特效”簡直不忍直視,硬生生碾壓了“五毛特效”。
摳圖過的畫面具有很多典型的“硬傷”:人像比例失調、表情僵硬,人物與背景結合生硬,背景虛化等,令人打眼一看上去就覺得十分違和,嚴重影響了用戶的觀看體驗。
阿里巴巴資深算法專家任海兵在接受 InfoQ 採訪時表示,現在很多影視劇摳圖技術“太假”、特效效果不好,一方面因為拍攝經驗不足,無法和摳圖技術很好的配合,另一方面可能是因為後期製作費用不足,導致後期沒有人工仔細校驗修改。
其實,摳圖是影視劇後期使用非常普遍的一種技術,例如在好萊塢的電影拍攝過程中特效製作基本都會使用綠幕拍攝,然後通過後期摳圖合成技術。
不過這項技術大多數時候都用不上。製片人何靜曾表示,這類技術使用的比例一般控制在 5% 至 10%,多用在無法正常拍攝或者無法實現以及不能呈現最佳效果的情況下。
但現在因為製作成本,演員演技、檔期衝突等因素,大面積摳圖的影視劇越來越多,且質量堪憂,給觀眾一種摳圖技術很不靠譜的感覺,這傷害了技術本身,也讓技術汙名化。
不能否認的是,隨著摳圖技術更加成熟以及影視劇、視頻製作的需要,智能摳圖將是大勢所驅。如何讓摳圖更加逼真,效果更加自然,AI 將在其中發揮越來越關鍵的作用。現在已有很多修圖軟件應用上了 AI,隨著視頻 AI 算法的發展,視頻智能摳圖也開始新興起來。
此外,長期來看,智能摳圖也將是節省成本、提高效率和精度的最優選擇。
相對於手工 PS 來說,智能摳圖優勢突出,一方面,可以大幅度提高摳圖效率。以圖像摳圖為例,一個複雜的人物手工摳圖需要手工幾分鐘時間;而利用交互式智能摳圖算法,幾秒鐘就可以完成。智能摳圖還可以達到“毛髮畢現”的效果,凸顯毛髮部分的分割精度,這是人手工幾乎無法完成的。
傳統的圖像摳圖算法都是基於非深度學習的算法,例如 KNN matting,Closed-Form matting,Bayesian matting 等。AI 摳圖是利用深度學習算法從圖像和視頻中把用戶感興趣的物體扣出來,可以把摳出來的物體放到新的背景上,合成新的圖片和視頻。
任海兵表示,目前流行的 AI 摳圖算法都是基於深度學習的算法,相對於傳統算法,AI 摳圖算法有兩個優點:一是摳圖精度更高,二是可以在 GPU 上並行計算,速度更快。
阿里文娛智能視頻摳圖技術
智能摳圖最直接用到的 AI 技術是圖像摳圖算法(image matting)。但為了得到更好的摳圖效果,目前很多摳圖技術都採用多種算法結合的解決方案,還包括顯著性物體檢測、圖像語義分割和實例分割等算法。
相比圖像摳圖,視頻摳圖算法最大難點是時序一致性。“對於視頻摳圖結果,一幀幀看結果都很不錯,但是連在一起,邊緣地區就會有抖動,摳圖時序的一致性不夠好”,任海兵說。
視頻智能摳圖技術就是在圖像摳圖技術基礎之上,增加視頻物體分割等算法來保證視頻摳圖結果的時序一致性,達到“抖動小,更平滑”的分割效果。
先來感受一下阿里的視頻摳圖技術:
視頻 1
視頻 2
摳圖後,視頻中的人神情、動作非常生動、自然,人物的頭髮絲纖細可見,視頻主體人物和背景的銜接流暢,能夠準確區分,整個畫面很完整,傻傻分不清哪一個是摳圖後的,足以以假亂真了。如果對比上面那些粗糙的摳圖畫面,效果簡直“吊打”了。
值得一提的是,該視頻的前景和背景顏色比較接近,在這樣的情況下,要保證摳圖對象的完整性和局部細節的精確度,所需的技術難度較高,尤其對於頭髮絲、衣服褶皺等摳圖精細程度高的部分。
任海兵表示,視頻人物摳圖,從人物分割來看,算法模型需要學習人物的先驗知識,在前景 / 背景顏色比較接近和複雜紋理的情況下,人的先驗知識可以起到重要的作用,能保證摳圖對象的完整性。
摳圖對象的整體性主要依賴圖像高層語義特徵,局部細節的精確性側重圖像低層局部特徵。實際系統中二階段的摳圖方法比 E2E 的摳圖算法能夠達到更高的精度。二階段的摳圖方法中,第一階段是硬分割階段;第二階段是軟分割,首先要保證硬分割結果中對象的整體性和邊緣的準確性,然後在準確性的基礎上利用軟算法達到“毛髮畢現”的效果。因此,在第一階段中就需要確保對象的整體性和邊緣的準確性。
“為了既保證對象的整體性,又能得到精確的局部細節,從算法角度,高層特徵和低層特徵需要很好的融合在一起 ",任海兵介紹。
目前很多圖像分割網絡,例如 HRnet 在這方面都處理得比較好。任海兵團隊參考 HRnet、Deeplab V3+ 等語義分割網絡提出了對應解決方案,該方案目前在最重要的語義分割數據集 Cityscape Test 數據集上達到了 84.3% 的正確率。
智能視頻摳圖商用落地
目前,阿里文娛所採用的視頻摳圖解決方案均是針對文娛業務的應用場景定製化研發,其目的是從影視綜劇中摳出人物區域,進行視頻內容的二次生成和創作。
“我們會根據人物摳圖的特點,設計一些模塊,例如人體分割的自動評估模塊等”,任海兵表示,“我們採用的摳圖原始數據基本上都是來自優酷的影視綜劇,這是我們業務的場景,我們尤其看重古裝人物的分割,因為古裝人物複雜的頭飾、服飾、武器等都是分割算法的難點”。目前,阿里已經建立了業界最大的視頻人物分割數據集,並將在今年阿里文娛的 MEIDA AI 算法大賽“高精度視頻人物分割賽道”中部分發布。
阿里文娛主要採用 AI 與人工結合的摳圖模式,利用 AI 算法為人工賦能,大規模提高人工效能。例如在優酷商業化廣告項目中,全自動的視頻人物摳圖後接入人工審核和交互式分割鏈路,也就是說,如果全自動的視頻人物摳圖的結果不合格,後續將由人工進行修補。
從算法的角度講,人物摳圖和物體摳圖並沒有本質的區別,算法原理、網絡框架基本上都是一樣的,只是數據不相同。因為視頻中人是觀眾最感興趣的對象,所以阿里文娛更側重於影視綜劇中的人像摳圖。針對領域,任海兵團隊提出了視頻 / 圖像人物無監督和交互式摳圖算法。目前,阿里的算法已經具備商用落地的能力,正逐步應用於多個項目。
最近幾年,智能摳圖應用開始在工業領域逐步落地,在商品海報製作、視頻彈幕等場景運用,上述場景屬於簡單場景,圖像背景比較簡單或者對分割精度要求不高,主要採用人工 +AI 方式摳圖。
而影視綜劇視頻製作中給人物換背景等複雜場景,則要求更高的摳圖精度和更高的平滑性。這對硬分割和軟分割技術都提出了很高的要求。
為了達到軟分割高度的平滑性,視頻軟分割 (video matting) 算法是非常重要的。“但在 video matting 領域,最近幾年學術界沒有明顯的進展。但我相信,隨著工業界需求越來越多,越來越多的研究人員會投身 video matting 領域,推動這個領域的發展”,任海兵表示。
他坦言,目前特別智能的摳圖算法,特別是視頻摳圖算法,還處於實驗室研究階段。算法特別複雜,需要大量的計算資源,且算法本身也不是特別成熟,在通用場景和複雜場景下達不到用戶的預期,因此只在某些特定的領域內針對具體場景進行優化,達到小範圍的商用。市面上,商用軟件中的摳圖算法,需要處理更加通用的場景,加之受計算資源限制,無法使用特別複雜的算法,還達不到特別的智能。
不過,最近兩年,深度學習在像素級分類任務上取得了較大的進展。智能摳圖相關的算法,例如圖像物體分割、視頻物體分割、Image Matting 等也取得了較大的進步。視頻摳圖在實現高度智能、大規模商用方面的潛力值得期待。