大數據

在線電視劇的受眾競爭力預測和分析 | KDD論文解讀

作者:張鵬,劉傳仁,寧克鋒,祝文祥,張宇

目前,網絡視頻平臺的主要流量來自於熱門電視劇,而平臺的核心收益就是在這些流量上進行廣告投放。通過準確預估劇目流量可以優化廣告投放效果從而提高收益。但是,僅僅預測流量還不足以回答更深層次的問題。例如,平臺未來要採購哪些劇目?這不僅要考慮劇目帶來的流量,還要考慮平臺內劇目的競爭關係,以避免造成熱度內耗問題。所以,本文通過競爭力問題定義、算法設計以及實驗對比,在劇目受眾競爭力問題上進行了初步探索。
問題定義:
目前學術界並沒有定義過劇目之間的競爭力,我們在調研過競爭力相關的文章後提出了一種劇目競爭力的定義。首先我們通過統計用戶的觀看次數,然後計算出兩兩劇目之間對用戶觀看次數的相對佔有量,最後對所有用戶取平均作為最終的競爭力。
我們以周為單位計算得到競爭力,進一步可以構建成為競爭網絡圖,圖的節點為劇目,邊是競爭力,這張競爭網絡圖是動態的,隨著時間推移不斷變化,而我們要預測的是未來網絡圖中每條邊的數值,也就是劇目之間的競爭關係。下圖是動態競爭網絡的示意圖,在已知T-2、T-1、T時刻的競爭網絡,要預測T+1時刻的競爭網絡。值得注意的是,動態競爭網絡中的劇目不是一成不變的,舊劇往往在大結局之後一段時間會消失,而新劇在首播時會出現。
image.png

算法設計:

針對上述問題,我們結合深度神經網絡和知識庫系統設計了一種動態深度網絡分解框架,並命名為Dynamic Deep Network Factorization (DDNF)。該框架可充分融合劇目的靜態和動態特徵以及競爭網絡中的時序動態模式,優化劇目在動態競爭網絡中的隱含表徵,並用其有效預測未來的受眾競爭力。框架共分為三個部分:第一部分是時序模塊(Temporal Latent Factors),該模塊利用張量分解從競爭網絡中學習到劇目的時序隱含表徵;第二部分是深度靜態特徵模塊(Deep Embedding of Static Features),該模塊利用知識庫(KB)和深度神經網絡(DNN)從靜態特徵中抽取劇目的關係和屬性信息,靜態特徵主要包括了劇目的簡介、題材、製作人員關係等;第三部分是循環動態特徵模塊(Recurrent Embedding of Dynamic Features),該模塊利用長短期記憶網絡(LSTM)從劇目的動態特徵中抽取劇目的動態變化信息,動態特徵包括了劇目每天的觀看次數、點贊人數、更新狀態等。最終將三個模塊組合在一起,形成端到端的動態深度網絡分解框架,示意圖如下,綠色框表示時序模塊,黃色框表示深度靜態特徵模塊,紫色框表示循環動態特徵模塊。

image.png

實驗對比:

我們利用某大型網絡視頻平臺的歷史數據,構建了劇目競爭力數據集,並利用該數據集進行實驗。數據集包括了電視劇與綜藝兩個數據集,時間跨度為一年。同時,我們選取了經典矩陣分解算法PMF、時序矩陣分解算法BTMF、考慮額外信息的矩陣分解算法HBMFSI以及兼具時序和額外信息的ETF進行了對比,實驗結果表明,我們的算法DDNF在兩個數據集上都取得了最好的效果,同時,發現對於新劇的競爭力預估,DDNF表現更加突出。

image.png

總結:

針對網絡電視劇目,本文首次提出了受眾競爭力的建模和動態預測問題。論文首先通過挖掘劇目的觀看記錄構建一系列動態的競爭網絡,然後結合深度神經網絡和知識庫系統設計了動態深度網絡分解框架。該框架可以融合劇目的靜態和動態特徵以及競爭網絡中的時序動態模式,優化劇目在動態競爭網絡中的隱含表徵,並用其有效預測未來的受眾競爭力。通過預測劇目之間的競爭力刻畫劇目的受眾,對於視頻平臺的廣告售賣、劇目採購計劃、以及與其它平臺的合作和競爭等決策任務。

更多數據挖掘內容查看:《KDD論文精華解讀》

Leave a Reply

Your email address will not be published. Required fields are marked *