作者| 阿里文娛高級開發工程師 千起
一、背景
隨著 5G 時代來臨,新媒體行業快速發展,盜版傳播平臺多樣化、形式多樣化,版權方難 以通過有限的人力實現最大限度的維權。根據 MUSO 報告顯示 2017 年盜版網站訪問量達到 3000 億次。人工智能逐漸成熟,盜版監測覆蓋難、查找難的問題將迎刃而解。
那麼如何運行將人工智能技術運用到盜版監測中?我們先從一個例子開始:下面是一個普 通用戶查找盜版資源的過程:
上面的例子中有兩個操作:搜索查找 + 結果篩選。其中“結果篩選”是用戶閱讀搜索結果, 並確認當前結果是否包含盜版內容。這一過程在人工智能領域叫識別,因為用戶閱讀的是文字, 所以我們叫它:自然語言識別。
普通用戶可以很容易的判斷出“哪些搜索結果包含盜版內容?”,那麼機器是怎樣模擬閱搜 索結果呢?下面我們分析 3 個典型的盜版搜索例子。
二、盜版搜索結果分析
1. 用戶搜索盜版影片示例
2.“判斷難點”分析
1)歸類“判斷難點” 名稱近似類:系列類影片、名稱包含類影片;
(1)主題不相關類:結果是資訊、新聞、彩票、廣告等等信息;
(2)同名影片類:相同影片的歌曲、遊戲、戲劇、通用名詞等有歧義的信息;
(3)變換類:影片名稱縮寫、人工故意添加的干擾信息。
1)自然語言識別中怎樣處理這幾種情況?
(1)名稱近似類:
答:回想一下人是怎樣處理的?如果一個人是它知道所有影片信息,那麼他就知道兩個影片是不一樣的。這類問題在自然語言中屬於知識圖譜(Knowledge Graph,簡寫:KG)的範疇。
(2)主題不相關類:結果是資訊、新聞、彩票、廣告等等信息;
答:普通人因為有一些背景知識,是知道哪些是屬於新聞類,哪些屬於廣告類。由於這些分類是有限的,所以自然語言中通常使用文本分類(Text classification)。常見的文本分類有二分類和多分類(輸出大於 2 種分類結果)。
(3)同名影片類:相同影片的歌曲、遊戲、戲劇、通用名詞等有歧義的信息;
答:識別同名需要有兩步。第一步提取句子中的影片實體名稱,第二步辨別句子描述的是哪個領域的影片。這裡需要自然語言領域中的 實體識別 (Named-entity recognition,簡寫:NER)+文本分類。通俗講,實體識別是找中句子中的影片,而文本分類是區分這個句子說的是哪個領 域的影片。
(4)變換類: 影片名稱縮寫、人工故意添加的干擾信息。
答:這類問題和問題 1)一樣,這類問題在自然語言中屬於知識圖譜(Knowledge Graph, 簡寫:KG)的範疇。模型需要背景知識,知道影片有哪些縮寫。
三、自然語言識別如何識別盜版呢?
在自然語言處理領域通過有三部分。分別為:文本預處理、特徵計算、模型訓練/預測。
文本預處理:清洗樣本,並將文本格式、符號轉化為統一的形式;
特徵計算: 將文本轉化為數字。這一步可以使用特徵工程,或者 詞袋(oneHot)、文 本嵌入(word embedding)模型、深度 Transformer 模型。
模型訓練/預測:選擇合適的模型算法,訓練模型。模型方面可以使用決策樹類型(例如: XGBoost、LightGBM、Deep Forest 等等),也可以使用深度網絡(例如:LSTM、BERT、 Transformer-XL 等等)。當然也可以使用多個模型(一個模型的輸出,作為一個模型的輸入)
那麼模型是什麼樣子的?
下面是從樣本輸入到模型產出,落地一個模型需要做的步驟:
四、總結
這篇文章中提到的方法已經落地到實際工程中,準確率可以達到超越人工盜版結果判斷水 平。目前自然語言仍然有非常強的業務領域特點,不同業務領域會遇到不同的行業特定問題, 而且前沿的模型提供原生的英文支持,所以在工程落地場景中,需要結合實際業務場景不斷的 優化模型。