實體識別功能介紹
實體識別,全稱命名實體識別(Named Entity Recognition,簡稱NER),指對電商查詢詞中的具有特定意義的語義實體進行實體詞打標識別其中的品牌、品類、品類修飾、型號、款式等40種類別 。查詢分析根據識別的結果,依據實體類型的權重對查詢詞進行改寫,使得召回的文檔符合查詢的意圖。
類別 |
|||
普通詞 |
材質 |
風格 |
款式元素 |
顏色 |
品牌 |
功能功效 |
尺寸規格 |
品質成色 |
場景 |
人群 |
套裝 |
時間季節 |
型號 |
新品 |
系列 |
營銷服務 |
地點地域 |
人名 |
文娛書文曲 |
機構實體 |
影視名稱 |
遊戲名稱 |
數字 |
單位 |
品類 |
新詞 |
修飾 |
專有名詞 |
品類修飾詞 |
符號 |
前綴 |
後綴 |
贈送 |
否定 |
代理 |
開放搜索實體識別優勢
基於多年淘系全量數據和知識庫深入優化電商行業實體識別能力,解決品牌更新快歧義大,品類存在修飾關係,品牌品類搭配關係等問題。解決尤其在中文上由於缺乏天然分隔符,面臨邊界歧義、語義歧義、嵌套歧義等困難。
實體識別在查詢分析中作用
1.作用於query改寫:
開放搜索查詢分析可以改寫兩個query,第一個query更精準,第二個query減少了參與召回的term,旨在當更精確的召回結果數不足時,用第二個query進行擴大召回。query改寫主要根據實體的重要性,召回時保留重要性高的實體詞,對重要性低的部分不影響召回,隻影響算法排序。
實現方式:
實體重要性目前分為高、中、低三檔。其中“品牌、品類”是在高檔,也就是最重要的;其次“風格、款式、顏色、季節、人群、地點…”處於中檔;最後“尺寸、修飾詞、影響服務、系列、單位…”處於低檔,可以丟棄不參與召回。
2.與類目預測一起使用
query中不同的實體對類目的影響是不一樣的,因此,當原query沒有類目預測的結果時,會根據一定的規則,去掉和類目意圖無關或者相關度低的詞後,進行類目預測,這對長尾query的類目預測會有很大的幫助.
示例:
“楊冪(人名)同款(後綴)春季(時間季節)修身(款式元素)連衣裙(品類)”丟詞後的query按照優先級排序分別為:
春季修身連衣裙
春季連衣裙
修身連衣裙
連衣裙
系統會按照上述順序依次查詢類目預測的結果
更多類目預測功能詳介紹:https://help.aliyun.com/document_detail/69036.html
電商行業增強版實體識別能力再升級
開放搜索打造獨有的行業智能搜索解決方案,推出電商行業增強版,其中在實體識別能力上進行了再升級,使得實體打標效果更好,可以更精準的定位用戶搜索意圖滿足商品搜索需求。
- 現有框架知識庫更新
基於老模型鏈路重新構建全量知識庫,F1 69 -> 74
- 標註訓練數據,使用神經網絡模型
標註10萬條數據,耗時4個月,BiLSTM-CRF模型,F1 74 -> 78
- 神經網絡模型結合知識庫
技術創新GraphNER框架結合監督模型與知識庫,F1 78 -> 82
實體識別干預詞典
業務場景不同,實體識別語義也是不同的,為了方便用戶使用,開放搜索提供實體識別干預詞典,供用戶自定義詞的語義,目前實體識別的干預主要包括兩個:一是對實體識別結果本身的干預,二是實體類型重要性的干預。當實體識別的結果不準時,應該通過實體識別的干預詞典的配置來進行干預。通過創建實體識別干預詞典,並在查詢分析中實體識別配置相應的干預詞典,就可以干預實體識別功能。
例如:業務特殊專有名詞,需要進行實體識別干預。
用戶搜索“小熊 (Bear)嬰兒指甲刀護理套裝",其中“小熊”“bear”實體識別結果為:普通詞,但實際業務上“小熊(bear)”是一家母嬰品牌,這時可以使用干預詞典,設置為“品牌”,從而影響召回排序的效果。
實踐後的搜索性能對比
1. 搜索“荷蘭美素佳兒嬰幼兒奶粉“分詞效果
• Before:“荷蘭 美 素 佳 兒 嬰幼兒 嬰 幼 兒 奶粉 奶 粉”
• After: “荷蘭(地點地域) 美素佳兒(品牌) 嬰幼兒(人群) 奶粉(品類)”
2. 搜索“夏季新款涼鞋男童”
• Before:3個召回結果,
• After:22個召回結果
利用實體識別功能:定位搜索關鍵詞
實體識別:“夏季”時間季節,“男童”人群;“新款"新品;;“涼鞋”品類;
Query1: “涼鞋”“夏季”“男童”;
Query2:“涼鞋”
阿里雲搜索相關產品推薦
開放搜索(OpenSearch):基於阿里巴巴自主研發的大規模分佈式搜索引擎搭建的一站式智能搜索業務開發平臺,目前為包括淘寶、天貓在內的阿里集團核心業務提供搜索服務支持。通過內置各行業的查詢語義理解、機器學習排序算法等能力,提供充分開放的引擎能力,助力開發者快速搭建更高性能、更高搜索基線效果的智能搜索服務
瞭解產品詳情:https://www.aliyun.com/product/opensearch
瞭解更多電商行業搜索解決方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
如果你想與更多開發者們進行交流、瞭解最前沿的搜索與推薦技術,可以釘釘掃碼加入社群~