演講嘉賓簡介:阿里雲智能高級產品專家——吳世龍(染天)
以下內容根據演講視頻以及PPT整理而成。
觀看回放:https://yq.aliyun.com/live/43343
本次分享主要圍繞以下三個方面:
一、如何評估搜索質量、體驗與業務價值
二、OpenSearch背景與核心能力介紹
三、典型案例
一、如何評估搜索質量、體驗與業務價值
1.搜索-無處不在
生活中多種不同場景需要進行搜索,在企業內部產品中也需要使用多種搜索功能,方便用戶快捷地獲取企業相關商品、服務、內容等信息。搜索在不同的企業業務中的角色可能有所不同。如下圖所示,搜索在電商行業是十分重要的業務流量轉化入口,在其他領域也必不可少。
搜索是用戶獲取信息的基礎手段與能力,如果搜索不好用,用戶信任度必會降低。如果搜索在某業務場景中使用不多,建議衡量業務的全站流量結構。
2. 評估搜索質量、體驗與業務價值
六成左右客戶不清楚如何評估搜索質量、體驗與業務價值,那麼引出以下問題。
-
搜索的業務價值驅動力是什麼?搜索在企業內部的業務價值驅動一般依靠被動的Bad case、KPI或業務需求。依靠Bad case驅動,搜索結果具有隨機性,不固定時間地點場合,搜索體驗差。KPI指標判斷,容易片面和不知所以然。依靠業務需求指業務方或運營指明將某些搜索結果置於前排,意味著結果排序相關性勢必會完全依賴於業務方經驗而無法客觀的保障用戶的體驗與業務轉化,不具備可控性。以上三種業務價值驅動方式都存在較大問題。
目前許多企業的做法是根據上述所謂的內部搜索業務價值驅動力,做召回、排序、業務需求以及擴展搜索歷史等功能。 -
如何衡量?主觀?客觀?如果明確了搜索的業務價值驅動力,如何衡量驅動效果,即業務價值?具有客觀的體系化衡量手段才有可能實現客觀的判斷。
下圖所列舉為一套以淘寶內部為典型的搜索上線流程。首先需要有監控/評估搜索用戶體驗的方法,週期性評測用戶體驗。通過監控/評估明確迭代/專項。在上線前做一些A/B Test或灰度測試,如果沒有問題可全量上線,並監控線上效果。例如翻頁率下降,說明用戶以往搜索10頁才能找到的內容現在1、2頁就可以找到,搜索體驗提升。
該鏈路是主動監控、評估搜索業務價值的,好的驅動力應該是高效的體系化的持續化的實現交付價值。
那麼如何衡量搜索業務價值?該鏈路源頭是監控/評估能力,需要有體系化、專業的報表與評估服務。報表是客觀性數據,只能反映果而不能體現因,評估服務是人工主觀評估服務。監控/評估取代了所謂Bad case、KPI、業務需求,更加體系化地衡量搜索體驗。
如下圖所示,OpenSearch報表評估提供5大維度的30+指標。報表只能體現整體結果,而局部效果的評估可以根據大量指標從不同視角得出不同結論。五大維度分為流量指標、點擊類指標、用戶分析類指標、Query分析類指標、成交指標,核心指標由其提煉而來。
以往每天上班第一件事是查看關鍵指標,如發現可能存在問題,需要檢查連帶影響,確保報表各項核心指標正常後才會展開其他工作。因此該體系化、專業的報表與評估服務不僅帶給客戶一種技術能力,更使客戶能夠在平臺上完整落地、驅動搜索業務。
-
如何高效、可持續、體系化地交付搜索價值?搜索的相關市場、場景、用戶、文化一直處於變化中,明確搜索業務價值驅動力、衡量方式後,如何高效、可持續、體系化地交付搜索價值?
與一般開源不同,OpenSearch提供的不是需要客戶自行拼搭開發的零散工具,而是一套完整服務,一切皆為提升業務價值、體現大家的專業能力。OpenSearch服務主要有以下四個特點。第一,免運維,客戶只需要提供數據並配置滿足自身業務訴求的策略。第二,開箱即用,只需提供數據與配置策略,操作便捷。第三,一站式,提供搜索核心功能、擴展功能。第四,高搜索質量。
下圖所示為搜索上線流程,創建應用、上傳數據並進行簡單調試後即可發佈上線。若過程順利半天即可完成。
二、OpenSearch背景與核心能力介紹
OpenSearch是阿里巴巴自研的搜索引擎,過去一直支持並服務阿里內部應用,經過千錘百煉才沉澱到可以賦能市場上其他企業。
搜索的核心是做召回、排序、業務需求以及功能擴展,投入重、依賴多、週期長,一般企業難以投入大規模人力與資源。因此開發性能與體驗優秀的搜索引擎並非易事。
召回核心模塊為分析器與查詢分析。中文博大精深,易生歧義,分詞效果至關重要。召回內置多種分析器,分析語言意圖。查詢分析提供同義詞、糾錯、詞權重、實體識別、停用詞分析等必備功能。
排序方面支持二次排序,是大數據量召回的有效解決方式。還支持類目預測、人氣模型,支持表達式以及Cava排序定製。
根據業務需求需要支持混排、打散、詞典管理等功能實現。混排指在搜索召回結果中根據業務需求相應展示視頻、文字、圖片等不同媒體類型結果。例如在淘寶搜索結果中,打散指品牌、價格等打散展示。
擴展即功能性擴展,如A/B Test、搜索框下拉提示、熱搜&底紋(默認搜索詞)、飄紅、Debug工具等。
召回、排序、業務、擴展都是為了服務客戶,使客戶能以最小成本、最短時間交付高質量業務價值而提供的能力。
1.分析器
分析器是影響搜索效果的基礎模塊,不同業務場景需要使用不同分析器,需要用戶結合自身業務場景自行選擇。目前OpenSearch集成了12種分析器供用戶選擇,用戶也可上傳自己的分詞詞條個性化定製分析器。
下圖所示為阿里OpenSearch電商分析器與開源IK分析器對比數據,可見OpenSearch分析器的分詞效果相對優於IK開源分析器。該對比隨機抽取100個電商類Query,下圖列舉部分結果。例如925銀耳飾,開源IK分析器分詞有“銀耳”一項,OpenSearch電商分詞理解顯然更優。
2.類目預測
用戶搜索意圖可分為精搜、泛搜,類目預測即預測用戶搜索某一Query時目標類目的結果。類目預測並非依靠個人體感,而需要符合市場需求,根據行為數據儘可能快速滿足用戶需求。
如下圖所示,使用類目預測前在淘寶搜索光明,可能出現米、面、奶等多種相關商品。而根據用戶點擊行為數據,100個用戶搜索光明,絕大多數點擊的商品是光明牛奶,意味著用戶搜索光明通常是搜索光明牛奶,因此使用類目預測後前排推薦商品變化為光明牛奶。
類目預測也可使用純文本方式。
案例——雙面膠:多數時候搜索雙面膠指辦公用品,然而一段時間內電視劇《雙面膠》很熱,出現了許多相關周邊產品。那麼用戶在該階段搜索雙面膠想要的商品或許會發生變化,可通過用戶行為數據進行類目預測。
案例——播、海賊王、柯南:“播”是一個服裝品牌,多數時候需要召回的內容為該品牌服裝。海賊王、柯南等Query,需要根據市場需求,通過類目預測提供更合適的結果。
3.人氣模型
淘寶早期搜索結果排序方式非常簡單,寶貝發佈後上架試7天,剩餘下架時間越短排序越靠前,所有賣家都有相同的機會獲得流量,對賣家、買家都相對公平。然而該模式無法將價值最大化,並不經濟。
因此淘寶很早發佈了人氣模型,儘可能與市場趨勢匹配,使用戶更加滿意,從而轉化為最大價值。用戶體驗好,對優質賣家、商品也更公平,是當前默認模型。
4.熱搜&底紋
三、典型案例
1.召回
下圖所示站點是以UGC內容為主的論壇。由於站內搜索用戶地域表達與文化習慣差異大,易生歧義,導致搜索體驗差。因此該類搜索場景要求搜索引擎具備較強的語義理解能力,根據搜索和文檔的真實語義進行智能匹配。
詞權重分析:如下圖所示,搜索問題為“胎停有什麼症狀”,基於優秀的召回質量,通過詞權重分析能夠給出較好的結果排序。
拼寫糾錯、同義詞擴大召回:如下圖所示,由於用戶方言習慣等問題,搜索關鍵詞時將“剖腹產”誤輸入為“拋婦產”,通過拼寫糾錯等功能,仍然可以正確識別用戶意圖,提供相關內容。
**客戶評價-1:簡單無門檻,連不懂技術的產品經理都可以使用OpenSearch對業務進行迭代,大大縮短了項目的迭代週期。
客戶評價-2:提高效率,目前技術團隊沒有專職優化搜索的技術人員,只是根據項目需求做臨時優化即可,省力省心。**
2.技術類內容社區
某國內最大的中文IT內容社區,涉及眾多業務場景,由於是技術類內容社區,需要提供強大、優秀的搜索服務。
該社區花一年時間基於開源自建搜索服務,效果不佳。因此該社區試行OpenSearch。
下圖所示為基於開源自建搜索服務與基於OpenSearch服務的搜索效果對比。搜索同一關鍵詞Win10重裝,可見基於OpenSearch服務的搜索語義理解更優,提供的搜索結果相關性更高。
由於該社區搜索詞專業垂直度高,通用分詞不足以支持,需要自定義詞典,並結合了阿里NLP通用Query智能分析+人氣模型。
效果:對比基於開源自建的搜索服務CTR提升80%+,對比友商CTR提升3%。
如果你想與更多開發者們進行交流、瞭解最前沿的搜索與推薦技術,可以釘釘掃碼加入社群~
【開放搜索】新用戶活動:阿里雲實名認證用戶享1個月免費試用~https://www.aliyun.com/product/opensearch