大數據

《Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation》解讀

論文作者:於文輝,林肖,葛均鋒,歐文武,覃徵

推薦算法是機器學習的一個重要應用,推薦算法與其他機器學習算法的一個重要區別在於數據的特點。在推薦系統中,由於用戶行為的長尾效應,往往數據極為稀疏,而另一個問題在於,推薦算法的數據集往往是隱式反饋,即通過對用戶行為的採集而非query來獲得用戶對推薦標的的反饋。學界針對這兩個問題曾提出過不少方法,也有很多經典的工作。然而,這兩個問題始終沒有得到完整的解決。

目前學界解決數據稀疏性的思路是引入更多的信息來輔助協同過濾進行推薦,例如引入豐富的side information如文本和tag,圖片等。而同時為了解決隱式反饋,往往採用負採樣的方式添加負樣本來幫助模型學習。負採樣的方式存在一個明顯的缺點,即採樣過程中可能會將潛在的正樣本當作負樣本使用,使得負樣本中存在著較大的噪聲。

我們在已有工作的基礎上,提出了一個新的遷移學習的思路來同時解決這兩個問題。我們試圖通過讓模型學會舉一反三的方式,將知識從一個數據豐富的 domain(source domain)遷移至一個數據稀疏的 domain(target domain)。我們考慮一個極端的情形,即將知識從一個 domain 遷移至用戶和商品均不重疊的 domain,輔助推薦。同時,我們僅在 source domain 進行負採樣,通過知識遷移將負樣本的知識遷移到 target domain,避免了直接進行 target domain 上的負採樣,實現了在target domain 上的有效學習。

推薦算法極為依賴用戶和商品的表達,即embedding。常用的遷移學習算法大多建立在兩個domain共享embedding隱式空間的基礎之上。然而這一方式存在著一個嚴重的問題,即推薦算法中的embedding 分佈在隱式空間之中,其空間不具備明確的語義含義。因此直接對兩個domain的embedding進行共享可能會導致embedding 的錯位。這一點與 cv 領域中的共享隱層存在著極大的差異。因為在圖像領域中,圖片的輪廓、色彩等信息具備明確的含義,兩個數據集上的貓或者狗的圖片在輪廓和紋理上是具有相似性的。而在推薦領域中,embedding 的任一個維度沒有語義含義,因此 source domain 中的一個恐怖電影與 target domain 中的喜劇電影,兩者的 embedding 向量可能很接近,直接遷移會造成語義上的南轅北轍。為此,我們引入了評論文本信息,將兩個 domain 的 embedding 分別與對應的文本的語義空間進行對齊,保證兩個 domain 的恐怖電影的 embedding 均與 horrible 這一單詞較為接近,由此保證兩個 domain 的 embedding 可以進行更準確的空間對齊。
image.png
為此,我們設計了一個基於文本的半監督式遷移學習推薦算法,並將其命名為Text-enhanced Domain Adaptation Recommendation (TDAR)算法。我們首先在兩個domain中將用戶和商品分別構造出文本空間內的隱式表示。具體來說,我們採用了memory network,將用戶/商品的隱式表示建模成評論文本中單詞embedding的線性組合,並通過一個基於文本的推薦任務對該表示進行訓練。而後,我們採用了domain adaption中經典的adversarial training的方式,設計了一個domain分類器和一個協同過濾模塊,其中domain分類器採用adversarial training的方式,將用戶/商品的embedding和文本表示進行對齊,使得source domain的用戶/商品embedding與target domain的用戶/商品embedding出於同一空間內。為了使得兩個domain的embedding能夠通過文本進行對齊,我們將用戶/商品基於文本的表示和embedding進行拼接後輸入到domain分類器,再進行對齊。
image.png
我們在亞馬遜的公開數據集上進行了實驗,選用了movies, videos, CDs 以及clothes進行了實驗,並將domain之間有用戶或者商品交集的數據刪除。我們將數據最為豐富的movies作為source domain,其他三個domain作為target domain分別進行了實驗。同時,我們採用了經典的協同過濾算法MF,深度學習算法NeuMF,深度文本推薦算法CoNN,adversarial leanring經典算法DANN以及state-of-the-art的跨領域推薦算法Rec-DAN進行了對比,實驗結果表明,我們的算法在多個數據集上均取得了很好的效果。
image.png
image.png
同時,我們也觀察到,對於domain相對接近的任務中,我們的算法表現更為突出。這也符合我們的預期,因為從不相近的domain遷移知識,對於target domain而言收益並不大,這也提示我們應該選擇合適的domain來幫助學習。

我們利用文本信息來對跨領域推薦的用戶/商品表示空間對齊的方案具備較強的擴展性,對於工業界的跨領域推薦也有著一定的啟示。考慮到文本只是諸多信息中的一個類型,我們在未來將會關注以其他的信息來進一步幫助遷移學習在推薦算法中的使用,而遷移學習在cv以及nlp領域取得成果之後,我們相信這項技術在未來的推薦中也會發揮日益重要的作用。

更多數據挖掘領域論文請查看:KDD頂會論文解讀

Leave a Reply

Your email address will not be published. Required fields are marked *