雲計算

《觸摸全新的文化娛樂:文娛視頻技術、5G構建新消費體驗》

演講嘉賓簡介: 阿里文娛核心系統部負責人——心石

以下內容根據演講視頻以及PPT整理而成。
本次分享主要圍繞以下兩個方面:
一、新趨勢
二、技術佈局

一、新趨勢

文娛視頻技術探索和5G機會點
優酷主要提供劇集、綜藝、電影、動漫品類的長視頻,同時包含資訊、紀實、文化財經、時尚生活、音樂、體育、遊戲和自頻道品類,業務形態包括會員、直播、VR、家庭娛樂和經濟業務,是一個綜合的視頻平臺,服務於視頻消費業務場景。
image.png
5G的基礎建設和運營商推進5G應用
5G技術的主要特徵:高速率、低延時和多連接,相較於4G,達到了質的變化。從應用層來看,5G的速率是4G的10倍以上,可達到20Gbps,時延降低10倍,連接數密度增量式增長,可提高10倍。5G在工業自動化、自動化駕駛車輛應用較多,同時在視頻消費,3D、4D視頻和超高清屏幕,是極為確定的應用,優酷在5G時代來臨前,做了一些思考和探索。
image.png
聚焦5G+AI構建新文娛消費體驗
將從消費側的新玩法、新形式、新體驗和生產側的視頻數量和處理速率新要求兩個部分講述。
消費側側重於5G下音視頻體驗升級,信息密度即帶寬高後帶給消費者在超高清、播放能力、立體視覺的體驗。優酷基於對超高清的理解,在畫質、聲音、高幀等方面,做了自己的幀享平臺。隨著速度的提升和連接時延的降低,播放能力全面升級,增加交互體驗。上行通路打通後,2D和平面式消費不能滿足用戶的需求,轉向立體,具體包括AR、VR以及6DoF觀看。
生產側藉助AI助力,快速有效的生產視頻,通過AI理解,多維度加工視頻,產生二次創造的有趣素材。AI助力的部分包括多模態搜索能力(以往通過文字搜索,後續可能會增加圖片、語音,多模態的搜索視頻)、基於用戶興趣的推薦系統(對視頻有效組織)、基於素材解構的視頻智能生產(素材結構和語義理解,對視頻進行二次加工,例如生成片花、封面、梗概,以往藉助人工,效率較低,藉助和AI和算法的幫助,快速生產,滿足5G下信息量暴漲和通路拓寬的要求)、視頻質量主觀體驗提升(清晰度感受不夠好的視頻,物理條件滿足,但主觀質量並沒有得到提升,可藉助AI整體校準,保證在高信息通路下,給用戶提供的不僅僅是物理質量較高的視頻,同時主觀質量極高)
image.png
5G時代的內容趨勢
5G時代的內容趨勢和5G的三個技術提升息息相關。視覺體驗提供的是更高信息密度的訴求,不論是4K、60FPS和HDR 10bit,均來源於5G下高帶寬,高信息密度的技術特徵。交互形式上,互動形態更豐富,包括3D視頻、遊戲化和內容互動,主要源於低延時、高在線的特徵。5G高連接數催生新的內容形態,例如AR、VR和 6DoF。
image.png

二、技術佈局

阿里文娛在5G背景下的技術佈局
第一部分是普惠的超高清視頻體驗,設備不同,設備呈現視頻的能力不同,用戶在5G網絡下的視頻觀看體驗是不同的。帶給設備不同或環境組成不同的用戶超高清體驗,即“每一幀,都享受”,阿里將此技術方案稱為“幀享”。窄帶高清2.0在不降低視頻質量的同時,大幅度降低帶寬佔用,接下來迭代出窄帶高清3.0,在保證用戶享受超高清畫質時,再減少30%流量線。第二部分是機器視覺加持下互動新形態,包含新互動場景的嘗試,互動彈幕、遊戲化等產品技術探索。第三部分是新交互到雲渲染,包括播放交互能力的技術創新以及邊緣計算對6DoF、VR/AR視頻及視頻雲渲染的思考。
image.png
5G下最確定的應用場景是超高清,是否能呈現出用戶腦海中的超高清視頻,例如視頻編碼、後期處理、前期製作、拍攝設備、存儲和再加工,這些元素在方方面面影響著超高清的呈現。高幀率,超高分辨率,HDR,環繞音效,這些技術上的指標是遠遠不夠的。糟糕的拍攝設備或者前期製作,即使視頻達到了技術上的指標,但整體效果體驗並沒有達到。

全鏈條的掌控是保障高品質視頻消費體驗的基礎
消費者看到的是一個高幀率、高分辨率的音頻處理和解碼效果,實際上從生產側到消費者側,有多個環節和多個工作需要完成。首先源頭是拍攝,包括器材和現場管理,以保證毛片素材的質量。之後是製作,調色過程中,優酷根據市場上不同設備的屏幕,做顏色的校準,校準信息會傳送到後續環節中,在解碼時根據消費者的屏幕進行不同的調製和還原,從而保證不同的設備呈現的色彩效果基本一致。較好的剪輯和音頻算法和格式應用在製作過程中,闡釋還原不同的音軌以及算法的推演和模擬都是混音重要的組成部分。製作環節後,進入成片介質的階段,即載入分發的視頻平臺。信息數較大的原始介質,將被重新繪製,轉化為不同的格式和有效編碼,降低整體的空間佔有率,將規模化分發下的體驗和成本做到極致。依賴高效的計算平臺,不論是編碼本身還是後期製作,成片都能得到高效的處理。生產環節後,得到可直接被分發的視頻流,線上分發的視頻流,依賴有效資源調度和傳輸協議,終端模塊捕獲後解碼和渲染。整個全鏈條的掌控,才能帶給消費者一個高品質的視頻體驗,每個環節都需要技術加持。
image.png
AR特效廣告植入系統
超高清是5G時代確定的應用場景,阿里、騰訊等都在探索這個業務。帶寬高意味著需提供更多的視頻,對大數據量的視頻有效後期處理,例如老片從低分辨率翻新為高分辨率,是待解決的技術問題,各大視頻服務網站均在探索的方向(同一時間內,能夠處理高清視頻的數量)。
例如在醫院場景下,點位系統捕獲白牆,框出一個區域後,進行多模態視頻解構,解構後將區域錄入特效系統中,特效系統根據已有的模板定製,此時牆上出現一個廣告,有趣的同時並不干擾原先的視頻。
image.png
首先雲端會對視頻進行AI訓練和輸入區域熱度算法模型,訓練完成後平滑處理並存儲。客戶端的傳感器捕獲用戶的播放和手勢變化並請求服務器,根據所處的幀位和用戶的手勢,將訓練的數據和手勢融為一體下發到客戶端,客戶端渲染引擎根據幀定位和播放完成整個AR過程。例如在這就是街舞2,通過現場的拍攝設備佈局,結合算法的邏輯處理,呈現出旋轉的效果。目前,優酷在做6DoF視頻觀看到可交互的探索,用戶滑動屏幕,與視頻交互,定幀後,可左右旋轉,放大縮小。
image.png
在對視頻有一定的理解後,可進行包括區域的定位,AR的植入,商品的購買,串聯整體鏈路。區別於僅僅觀看交互的體驗,將更進一步,在觀看的過程中,通過AR的技術,關聯其他的業務。
image.png
播放端通過安全分發服務,從CDN節點獲取素材(可播放的視頻),在5G的基建下,邊緣節點的計算能力得到放大,CDN獲取的靜態視頻,經過邊緣節點的計算和存儲,增加交互(商品購買、拖拉拽交互),邊緣節點距離用戶近,在交互頻繁的時候,用戶得到的反饋及時,整體體驗提升。播放段與視頻進行交互行為時,調度中心會返回距離用戶最近的邊緣節點。邊緣節點具備一定計算能力,當播放端需交互時,邊緣節點將計算的結果返回給播放端,播放端根據計算結果,持續的從CDN節點拉取後續分支視頻,構成整體的鏈路組合。相較於以往僅僅看視頻,加入高互動的環節。
image.png
生產側AI技術
AI技術提高視頻的生產效率,催生不同視頻生成的業務形態。NLP和ASR技術用於語義理解以及風險排除。圖像分類技術用於風險標識(涉黃涉暴視頻)。目標檢測技術用於人臉檢測和小物品檢測。視頻指紋技術用於識別視頻排除重複視頻、視頻版權問題。視頻語義理解技術可有效理解視頻,用於規整分類同類視頻。
image.png
視頻內容結構
如下圖,圖片的中心是視頻,包括視頻標籤(用於定位視頻的類型),視頻指紋(算法拆分視頻),視頻質量(質量高還是低以及主觀質量)。外圍區將視頻分為圖像和音頻兩部分,圖像被拆分為單幀和鏡頭,單幀中可定位區域,包括人體識別、人臉屬性、OCR和LOGO檢測等。鏡頭包括物體跟蹤、人臉跟蹤、實體分割、鏡頭識別和景別識別。音頻部分包括來源即BGM識別以及ASR和音頻指紋。通過方方面面算法的處理和視頻的結構,對視頻本身有更深的理解,結合業務場景可以進一步的處理和再組織。
image.png
基礎素材自動化生產與檢索
智能檢索,可根據人物本身的動作和角色的表情定位節目的劇情、場景、臺詞。例如通過搜索紅海行動槍戰,能夠檢索到槍戰的視頻。精細化摳圖中,精細化定位視頻中任務的動態過程。Shot級別素材打點,檢索出現的人物、場景、動作。檢索的結果可用於封面或小視頻的創作。
image.png
封面圖自動化生產
多維度自動化選圖:根據後臺的模板,產生基於人物、場景的截圖。從截圖中選出例如CP互動、任務表情、典型場景和動作的GIF圖片。亦可根據美學評級,自動化生成封面,提升了整體自動化效率,以往需要資深的運營人員,人工組織。
image.png
實現素材和內容的統一個性化分發
不同用戶的喜好不同,結合用戶喜好,推薦滿足美觀、精準、提效的標準的視頻。首先從原始視頻中抽取視頻幀,根據用戶觀看停頓、彈幕的高潮點和深度學習標註,選出有吸引力的幀畫面。之後進行圖像質量判斷,通過計算機視覺手段過濾模糊、曝光不正等低質量的圖片。然後結合計算機視覺和美學對圖片進行長寬比、縮放調整和拼接。接下來進行元素級別的分析,計算圖像中用戶決策的關鍵信息,如人臉、場景、事件、情感等。最後是個性化素材分發,根據用戶的喜好和興趣分發素材(例如喜歡動作戲或感情戲的觀眾,看到的是不同的素材)。
image.png
模板式視頻半自動化生產
BGM卡點剪輯,根據BGM的節奏,選擇視頻,契合BGM的卡點。整個過程首先會進行BGM卡點分析,選擇不同的剪輯模板(例如燃炸裂、虐心、甜蜜、搞笑、古風),模板之後,中間剪輯合成處理,包括個性化logo,消除字幕/歌詞,然後針對視頻的高潮增加一些動態特效,收尾時增加片頭片尾的藝術特效。以往,是一件較為花費心力的視頻,模板化後整體效率得到提升,但第一次一般需要專業編輯人員確定節奏、旋律。前情概要生成,目前可藉助模板半自動化生成。視頻形態轉換,例如豎屏視頻轉化為橫屏視頻,以往較為困難,有了主體定位和切割技術,不僅可以保證視頻的產品形態符合要求,亦可以保證視頻質量。
image.png
視頻消費場景下,信息通路提高可呈現超高清的視頻;5G低延時的特點催生新的交互行為和交互方式;高密度連接,即集中的場所連接更多的設備數,結合低時延的特點,呈現出區域性高密度的互動方式,才會產生面對面的多人AR+VR的內容形態。其他的業務場景,思考5G帶來的趨勢,也應該從這三個方面思考。

Leave a Reply

Your email address will not be published. Required fields are marked *