阿里雲開放搜索-電商行業智能搜索解決方案:
https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
一、搜索的業務邏輯
“搜索Query→召回→排序→搜索結果”
當用戶在搜索框輸入一個Query時,系統通過對其語義的理解,召回相關文檔或商品,在通過算法排序,按客戶實際的搜索意圖進行前後排序,最終解決其搜索需求,實現業務轉化。
其中【召回】與【排序】對搜索引導的業務目標最為重要。
二、自然語言處理技術(NLP)在搜索上的應用
1. 概念介紹
想實現搜索引擎效果的優化,就一定要對自然語言處理技術有一定的瞭解,因為用戶輸入一個Query,從學術角度解讀,自然語言智能研究實現了人與計算機之間用語言進行有效通信,它是融合語言學、心理學、計算機科學、數學、統計學於一體的科學。
自然語言處理被學者譽為”人工智能皇冠上的明珠“,研究覆蓋了感知智能、認知智能、創造智能這樣的學科,是實現完整人工智能的必要技術。
2. 阿里雲達摩院NLP搜索分析路徑
三、電商搜索的特點
1. 關鍵詞堆砌
例如:楊冪同款夏季連衣裙包郵。
2. 詞序對語義影響不大
例如:楊冪同款女夏季連衣裙包郵;女夏季連衣裙包郵楊冪同款。
3. 類目預測問題
例如:當用戶查詢“蘋果”時,可能查詢的是水果,也可能是手機品牌。
4.查詢召回文檔相關性差
核心詞識別不準確,分詞不準確
5. 搜索引導的業務轉化比重較大
據統計,綜合類電商搜索引導轉化佔比40%以上,垂直類電商搜索引導轉化佔比60%以上。
6. 穩定性要求較高,支持彈性擴容
活動、大促系統QPS可能是平時的百倍千倍,需要平滑的擴縮容,保障系統的穩定。
四、電商搜索優化核心功能
1. 分詞(劃重點!)
1.1分詞效果的優化直接影響召回數量,減少無結果率,提高搜索召回質量
例如:
“火鍋九塊九包郵”
- 效果差的分詞:“火、鍋、九、塊、九、包、郵”;“火鍋、九、塊、九、包郵”
- 開放搜索的分詞:“火鍋、九塊九、包郵”
“925銀耳飾“
- 效果差的分詞:“925、銀耳、銀、耳飾”
- 開放搜索的分詞:“925、銀、耳飾”
1.2不同的分詞方式直接影響著參與召回的關鍵詞,從而影響召回的準確性
目前很多開源自建系統難以實現很好的分詞效果,主要原因是訓練語料的數據量有限,不足以形成可以不斷打磨深耕的行業數據。尤其電商行業商品種類豐富,中文字、詞表達的意義多樣,多音字、同義詞又眾多的情況下,靠自身算法工程師和開發團隊很難實現快速的解決優化,這是一個不斷積累訓練的漫長過程。
2. 命名實體識別
2.1電商搜索-實體識別含義
對電商Query和標題進行實體詞打標識別,其中包含品牌、品類、品類修飾、型號、款式等類別;
2.2開放搜索實體識別優勢
- 基於淘寶全量數據和知識庫深入優化電商行業實體識別能力,解決品牌更新快歧義大,品類存在修飾關係,品牌品類搭配關係等問題;
2.3開放搜索實體識別作用
2.3.1作用於query改寫:
開放搜索查詢分析可以改寫兩個query,第一個query更精準,第二個query減少了參與召回的term,旨在當更精確的召回結果數不足時,用第二個query進行擴大召回。query改寫主要根據實體的重要性,召回時保留重要性高的實體詞,對重要性低的部分不影響召回,隻影響算法排序。
實現方式:
實體重要性目前分為高、中、低三檔。其中“品牌、品類”是在高檔,也就是最重要的;其次“風格、款式、顏色、季節、人群、地點…”處於中檔;最後“尺寸、修飾詞、影響服務、系列、單位…”處於低檔,可以丟棄不參與召回。
2.3.2與類目預測一起使用
query中不同的實體對類目的影響是不一樣的,因此,當原query沒有類目預測的結果時,會根據一定的規則,去掉和類目意圖無關或者相關度低的詞後,進行類目預測,這對長尾query的類目預測會有很大的幫助.
示例:
“楊冪(人名)同款(後綴)春季(時間季節)修身(款式元素)連衣裙(品類)”丟詞後的query按照優先級排序分別為:
春季修身連衣裙
春季連衣裙
修身連衣裙
連衣裙
系統會按照上述順序依次查詢類目預測的結果
3. 類目預測
3.1舉例說明:
- 用戶搜索“蘋果”可能是想要水果的蘋果,也可能是蘋果手機;
- 用戶搜索“華為”,召回結果按銷量排序,可能銷量最高的“華為手錶”、“華為配件”排在前面,實際的搜索意圖”華為手機“卻排在後面。
3.2開放搜索類目預測能力
類目預測是開放搜索裡基於物品/內容的類目信息改善搜索效果的算法功能。根據用戶的查詢詞來預測用戶想要查詢哪個類目的結果,結合排序表達式,可以使得更符合搜索意圖的結果排序更靠前。
基本原理:把歷史上搜過的query收集起來,結合query查詢之後的點擊行為數據,與類目下的物品信息聯繫起來,使用這些數據來訓練模型,由模型來刻畫query與類目之間的數據規律。
不同用戶搜索意圖不同,有些行為意圖搜索“配件”,有些意圖是搜索“手機”,那根據用戶的行為數據就可以通過類目進行判斷,從而在排序效果上實現個性化展示;
4. 排序算法
4.1電商排序常見問題
- 查詢結果排序不理想:導致點擊率較低,跳出率較高,直接影響業務轉化;
- 數據缺乏時效性:難以平衡優質商品和新發布商品之間的權衡關係;
- 商家刷排名:部分商家找到排序漏洞,通過關鍵詞堆砌,獲得靠前位置,用戶體驗不好;
- 人力資源緊張:需要專業算法工程師2-3名,很難找到合適的人才。
4.2開放搜索電商排序能力
在應用結構模板和索引結構模板基礎上,提供電商常用基礎排序、業務排序表達式,無需額外配置即可滿足大部分電商行業排序效果需求,用戶還可以通過cava腳本定製排序。
5. 人工干預bad case
5.1常見的bad case
- “iPhone11”剛上市時,用戶搜索“蘋果/iphone”,最新款產品肯定要排在前面,在沒有常規排序算法的時候,就需要類目預測人工干預;
- “噴泡”是一款籃球鞋的別稱,並非主流叫法,全稱是“Air Jordan AirFoamposite系列”,這時就需要通過平時運營積累的專業詞彙可視化同步到開放搜索做查詢語義理解功能的補丁,通過靈活幹預得以解決;
- 跨境電商有時Query涉及“日文、韓文、泰文”等外語,當我們的分詞詞典不能很好的分詞優化時,也可以通過分詞幹預功能解決;
- 用戶搜索Query“香奈兒氣墊”,默認的實體識別,將“香奈兒”歸類為“普通詞”;“氣墊”歸類為“材質”,需要人工干預實體識別,把“香奈兒”干預為品牌。
5.2開放搜索人工干預功能
- 內置干預詞典,可在其基礎上添加自定義干預詞典;
- 支持查詢分析干預詞典(停用詞、拼寫糾錯、同義詞、實體識別、詞權重、類目預測);
6. 搜索引導功能
6.1搜索引導功能業務價值
6.1.1熱搜底紋
- 熱門query是用戶興趣的風向標,通過分析熱門query把握用戶的興趣走向,對制定運營策略提供決策依據;
- 給用戶推薦一些優質query,提升業務目標;
- 用戶推薦熱門query,既提升用戶體驗,又給部分次熱門query增加曝光機會;
- 通過分析用戶的行為,結合用戶的興趣來推薦query,想用戶所想提高轉化機會;
6.1.2下拉提示
- 提高輸入效率,幫助用戶儘快找到想要的內容,同時減少用戶的查詢次數,減小服務端的壓力;
- 推薦更優質query;
6.2開放搜索搜索引導優勢
內置熱搜、底紋、下拉提示多樣搜索引導算法模型,無需開發系統每天自動訓練模型,對用戶搜索意圖起到重要的引導作用,大大降低後續查詢意圖理解、相關性、排序、運營幹預等環節的調優難度,對提升整體業務目標可以起到非常好的鋪墊作用。
五、開放搜索電商行業模板
1.搜索架構
開放搜索(OpenSearch)首創電商行業搜索模板能力,幫助企業快速構建更高水準的搜索服務,帶動業務指數級增長。
2.一鍵配置
內置電商行業搜索能力,配置簡單新手無門檻
3.電商行業模板優勢
- 行業最佳實踐,減少試錯成本
將搭建電商行業搜索的最佳實踐產品化落地,用戶不必各方向探索,只需按模板接入即可擁有更優服務;
- 內置更高質量算法模型,節省訓練成本
用戶從0開始優化搜索,免去大量的數據標註與模型訓練工作,直接內置阿里集團淘系搜索算法能力,節省數十人/月的算法工作;
- 支持個性化搜索與服務能力
通過引擎側的多路召回能力,實現搜索結果、下拉提示、底紋詞等重要服務千人千面,提升搜索轉化;
- 架構開放,支持開發者自定義模型實時迴流
支持用戶自行訓練的NLP模型導入進入開放搜索,靈活滿足業務開發者需求;
- 召回引擎性能充分領先
阿里巴巴自研Ha3引擎,處理海量數據、高併發、海量用戶請求,性能數倍優於開源方案;
- 高時效的行業迭代能力
根據電商行變化,不斷迭代更新原有能力,提供更高時效性的服務保障;
4.電商行業增強版技術核心指標優化
4.1開源搜索與電商行業增強版效果對比
4.2通用版與電商行業增強版能力對比
4.3離線數據處理
單個集群實時數據同步Tps百萬級;
獲得專家指導:
https://survey.aliyun.com/apps/zhiliao/uzhnOt_g9
電商行業模板配置流程:
https://help.aliyun.com/document_detail/208651.html
如果您對搜索與推薦相關技術感興趣,歡迎加入釘釘群內交流