大數據

淘寶千人千面背後的祕密:搜索推薦廣告三位一體的在線服務體系AI·OS

作者:阿里巴巴搜索推薦事業部高級研究員 沈加翔

一、三位一體的在線服務體系AI·OS介紹

AI·OS(Artificial Intelligence Online Serving)是由阿里巴巴搜索工程團隊打造,集個性化搜索、推薦、廣告三位一體的在線服務平臺。AI·OS引擎體系所支撐的業務場景包括:手機淘寶所有搜索頁面、手機淘寶上的信息流(猜你喜歡)、大促重點活動會場、淘寶首頁商品推薦、分類行業個性化推薦以及商品選品場景,覆蓋了手機淘寶上80%以上用戶群體。使用一套技術來支撐搜索、推薦乃至廣告,這在大型互聯網公司裡是比較少見的。阿里的平臺技術戰略,本質上是兩樣東西,一是電商技術,另一個是和電商配合的大數據AI技術的應用。電商OS,包括商品管理、類目管理、運營管理、交易鏈路。而在大數據、深度學習的時代,AI的投放、搜索推薦,甚至廣告的投放,已經是獨立於傳統電商的技術場景。除了手淘上的場景之外,AI·OS還支持阿里電商集團內能夠想到的所有場景,典型的包括東南亞的Lazada、聚划算、飛豬、優酷、釘釘、菜鳥、盒馬、本地生活——餓了麼、口碑,甚至和經濟體內部的兄弟公司支付寶在合作。

1.jpg

在深度學習的時代,AI·OS引擎體系的架構演進的變化是相當大的。但是我們並沒有像其他的互聯網公司一樣,在搜索和推薦的系統之外單獨做深度學習的技術。之所以成為今天的AI·OS體系,是因為我們把搜索、推薦、信息流、廣告、深度學習這幾項,從技術到業務場景都不同的東西,非常好地結合到了一起,得以形成了有實質內涵,能相互藉助合體發力的基礎引擎平臺。

從另一個角度縱觀AI·OS上眾多的業務場景,整個體系內會涵蓋以下技術或概念(如圖):

2.jpg

第一層,分佈式引擎系統需要具備的能力。無論是搜索、推薦、廣告,都需要召回、排序,系統做大之後,需要分佈式通信,高性能索引的存儲,要有比較高效率的支持索引靈活構建更新的能力,以上是基礎能力。

中間這一層,是在深度學習時代沉澱出來的技術要求和場景要求。比如深度學習需要做樣本處理,做訓練,在線預測,同時,與之相應的,是個性化投放,這在搜索、推薦、廣告都有所體現。最後,索引的部分還應該支持實時更新,這個概念在電商體系尤為重要。

再下面,就是整個體系內有資源管理,高可用性,相應的計算引擎的支撐,運維的管控和插件的支持。

以下是AI·OS工程體系技術的概念圖。

3.jpg

在這個組件的最下層是資源的管理,叫Hippo,是一個非常高效的資源管理系統。

最上層業務,包括淘內業務,雲上業務和廣告業務,都是近幾年陸陸續續拓展起來,一起逐步遷移到AI·OS這個功能體系上的。阿里的很多技術、業務是一個自底向上的模式,我們有非常強的創新意識。我們自底向上把搜索推薦平臺化建設到百分之七八十,再組織推動到戰略高度,加速之後形成了全覆蓋的格局。

右側是系統裡的中間件,是更為基礎的組件,跟實際的業務功能都直接相關。包括服務的定位——運行數萬臺機器的系統,內部要想服務定位需要有一個自己的機制。服務監控達到秒級的,這種秒級的服務監控和內部應用的metrics對分佈式系統的debug是非常關鍵的。索引分發是解決引擎數據更新鏈路的重要基礎組件。我們的消息隊列是一個利用機器碎片資源搭建的高性能消息組件,只有非常小的CPU消耗和網絡的通量,基本上是一個免費的組件,成本上比較有優勢。二層調度和彈性擴縮,在應對大促時,是在內部做搜索、推薦、廣告之間分鐘級資源調配的重要手段。

左側的算法平臺、離線平臺、訓練平臺、計算平臺,是我們在深度學習時代新的開拓。從樣本和特徵的處理鏈路來說,有我們的算法平臺——星雲體系,在這個過程當中,有訓練引擎的對接——XDL。計算平臺,是支撐算法樣本和訓練的基礎,也是阿里集團內部強大的技術支點,是和搜索一起成長起來的,相互促進相互支撐。

中間,是這幾年最重要的積累,和業務密切相關。端上智能,我們在端上不僅僅做簡單的推薦改變和結果混排的變化,而是真正在端上做模型的訓練,深度模型的預測,在這方面,手淘信息流是全世界規模最大的深度學習、訓練和預測的應用場景,這是我們比較有特色的探索。

HA3搜索引擎的服務是我們最經典的具有全文本檢索能力的引擎。商業化引擎,是與HA3相對應的,支持廣告業務、關鍵詞匹配帶廣告,或者支持定向場景投放的召回引擎。iGraph圖引擎,是具備在線圖計算和圖檢索能力,在業界規模較大的圖檢索引擎,它裡面具備的用戶個性化關係、知識圖譜的在線推導能力都是很大規模的。這些引擎都是支持數據實時更新的,這個能力的來源就是AI·OS Framework,支持對數據的管理,對更新的管理,是對右側整套技術的依賴,也有延伸出來的深度學習的能力。

二、AI·OS 在線服務技術架構演進

AI·OS在線服務架構,對逐步走向規模化的初創公司,具備一定的參考意義。

4.jpg

AI·OS 雖然有十年時間,但由於之前一直圍繞淘寶搜索業務深耕細作,在2013年至2015年期間主要在搜索引擎上做性能優化,在阿里體系內部做搜索引擎平臺化。搜索搭建主要是運用比較經典的架構——Query的處理+搜索引擎+摘要服務,Query的部分,會有一些個性化存儲,當時是用簡單的KV來完成。這個架構是很多初創型企業選用的架構,也是我們雲產品上提供的一個經典解決方案。

2015年到2018年,隨著信息流業務的進入,我們將搜索底層(Suez或AI·OS framework)數據抽象沉澱出來,在沉澱的數據上面,衍生了圖引擎、預測引擎、搜索引擎、推薦引擎,形成了今天AI·OS的主體框架。在這個過程中,我們也統一了全集團的搜索和信息流基礎框架,但這個過程是很依賴於阿里集團內部自下而上的搜索平臺推進,這是在業界獲得證明,在集團獲得認同後,納入到集團戰略裡的。

2018年~2019年,我們推進了全圖化的架構,是從深度學習開源框架TensorFlow學來的。在深度神經網絡迭代過程中,全圖化架構這種圖化DAG的表達,對業務描述更為標準通用化,我們把這個全圖化架構學來後,推廣到所有業務線,不僅是深度學習上,還包括業務邏輯調整、場景迭代、功能調整,如粗排、精排、統計、過濾這些功能,都用圖化的方式來表達,在業務迭代效率上,有了質的飛越。

由於之前在定製業務邏輯時,難以避免有些代碼級的,像C++、JAVA、插件開發,雖然能解決業務需求,但維護升級成本較高。解決方案就是用DAG算子化的表達,完成算子圖後,隨著版本升級,不需要改變算子圖,僅需改變算子的實現,把業務迭代、平臺升級的耦合度大大降低,非常好地解決了這個問題,這是近兩年重要的技術突破。

在這個過程中,我們也把搜索和推薦的技術,用到了非常有趣的場景上面,比如菜鳥物流引擎,本質上是圖檢索和圖計算的表達,跟我們的引擎體系,與iGraph圖引擎一起成長,成就了這個典型的場景,在這個場景上每天有億級別的包裹在圖中流動,尋找最優化的路徑,都是通過這個引擎來支持的。還有像釘釘消息搜索,消息是加密的,我們是無法查看的,而這個加密是從上到下貫徹到每一個環節的,在常規的搜索引擎中,是無法實現的。這個加密能力,是靠引擎的迭代實現的,除了深度學習外,我們在逐步引入SQL的能力。

隨著集團內部進一步貫徹中臺戰略,不管是在軟件的抽象,還是在能力的衍生,都需要在雲上發揮。我們已經在集團內部已與螞蟻金服業務拉通,並開闢了新的突破口。我們也真正在踐行平臺化、通用化的思路,用最高效的方式解決問題,並打造出了海神(一站式選品投放系統)、開放搜索(一站式內容智能搜索服務)等經典應用產品。其中,海神平臺支撐了阿里集團1000+個性化場景,業務覆蓋淘寶、天貓、聚划算、雙11大促等業務線,支持了超過10億次的選品投放。開放搜索作為高搜索質量的一站式內容智能搜索服務,以產品方式規模化支持搜索業務,覆蓋了集團絕大部分搜索業務,業務應用數量超過1萬個。並在雙11大促時,擔負了重要角色,支撐了高達100萬的QPS峰值。

三、AI·OS技術概覽

AI·OS主要部件包括:

端到端深度學習平臺:星雲&AOP

5.jpg

深度學習極大加速了模型工程的發展,模型迭代越來越頻繁,網絡結構越來越複雜多樣,因此給算法迭代效率、數據計算效能以及模型交付可靠性等都帶來了巨大挑戰。為此我們提出並構建了面向大規模商業化場景的一站式深度學習建模平臺——星雲。藉助星雲,用戶可以快速完成從特徵引入、樣本特徵變換,到模型訓練及評估,再到模型交付整個算法建模閉環。在此基礎上,星雲提供了完善的數據模型校驗體系,確保用戶的離線建模和模型交付具備生產級別的可靠性。星雲支持全量學習、增量學習和在線學習,並通過高層抽象實現了各種學習模式之間的低成本切換。

大規模分佈式深度學習框架:XDL

6.jpg

XDL是以開源框架為基礎,面向廣告、搜索、推薦等場景打造的分佈式深度學習框架,針對高維稀疏特徵、互聯網結構化數據和結構化模型進行了專門設計與優化。XDL支撐著阿里媽媽直通車、鑽展、超級推薦、品牌等多個營銷產品對用戶的深度理解與智能投放,是智能營銷AI的核心驅動力。

預測引擎:RTP

7.jpg

傳統的模型增量學習通過restore當前模型,持續訓練,天級更新,或者實時流式訓練,小時級更新,新模型需要經過全量切換才真正生效。基於AI·OS的預測引擎RTP,把TensorFlow的能力集成進來,讓深度大模型支持實時更新,充分利用實時數據分佈,提升CTR/CVR預估精度,獲取業務效果。模型特徵支持實時更新,模型可以增量訓練,通過對RTP在線graph分解,提取可更新模型weights成最大不連通可執行子圖,實時發送模型數據消息,真正實現了模型離線流式訓練,在線實時更新的效果。最終將在線模型更新週期從之前的小時級縮短到分鐘級別,模型生效時間從之前的分鐘級縮短到秒級別。

全圖化推薦引擎:TPP

8.jpg

TPP(The Personalization Platform,阿里個性化平臺)為集團眾多的個性化業務提供開放、一致的解決方案,讓搜索、推薦技術輕鬆服務於業務發展,業務也能快速得在平臺找到需要的技術,是AI·OS(Online Serving)大數據深度學習在線服務體系中的入口之一 。用戶在TPP平臺上編寫方案代碼,通過場景的形式對外提供服務。用戶不用關心機器資源申請,應用部署結構,不需要編寫服務框架,只需要實現自己的推薦邏輯函數,在TPP產品頁面管理方案的生命週期,從編譯,調試到發佈上線。

四、AI·OS雲原生產品與實踐

我們將集團內沉澱出的技術能力,從2014年開始逐漸向外部推出。目前,依託於AI·OS體系構建的產品矩陣如下所示。

9.jpg
10.jpg

開放搜索(OpenSearch)源於阿里巴巴AI·OS體系技術,是免運維、一鍵式的雲上平臺,將搜索平臺服務化、產品化,完全屏蔽了搜索系統的底層複雜度,以標準化產品的方式支持業務。開放搜索擁有比較好的搜索質量,效果可以在線調優。只需要提交內容、配置,就可以直接得到搜索體驗。搜索體驗中相關性可靈活配置選擇,可以改寫query、定製分詞、提交行業詞典。

在阿里巴巴集團內部,我們依靠開放搜索統一了各個搜索中長尾業務,自助接入的業務數量達上千個,基本覆蓋了集團各個BU的業務。經過數年的耕耘,我們在阿里雲也擁有數千家用戶,包含內容、電商、視頻等行業的典型應用。

11.jpg

智能推薦(AIRec)延申自阿里集團內部的海神系統,提供一站式的個性化推薦服務,服務使用者在提交內容和用戶行為,在確保數據保密的前提下,按照不同行業的模板,應用個性化推薦算法,實時調整效果,為用戶提供服務。除了阿里巴巴深耕的電商領域外,我們在內容、視頻等其他行業算法的投入是相當充沛的。我們要把內部的技術用好之後,很自然地更加抽象、通用地拓展新的場景。

在這一過程中,數據源的埋點規範、使用是有些門檻的,但我們也致力於讓產品更易用,同時效果提升的監控、調試、運營幹預的策略,都已經在產品裡提供了。在中小企業的創業期間,這可能將成為一種剛需配置。

12.jpg

還有圍繞開源生態的Elasticsearch,這款服務由我們和Elastic公司合作推出。我們秉承開放的生態理念,將Elasticsearch的靈活易用和我們調度管控系統的穩定高效相結合,並根據用戶需求,不斷迭代自研的創新性功能。用戶需要什麼,我們就會提供什麼,Elasticsearch在我們體系上做適配,是一個相互扶持、相互助推的局面。

在這三個垂直產品之下,是我們基礎的雲上技術積累,比如ElasticFlow,在數據進入引擎之前,需要對數據做打平處理,再灌到搜索引擎裡,例如Elasticsearch就需要ElasticFlow。同時,它還實現了開放搜索開箱即用的離線能力。在這一層,我們需要的是具化的計算引擎能力,這個計算引擎是在集團的計算平臺之上,為搜索、推薦定製了一個數據採集、開發、共享以及模型訓練的能力,這個能力提供出來之後,可以讓其上的產品橫向地拉通共享,這也是AI·OS體系沉澱的重要標誌。

再下層是管控平臺,搜索的基礎平臺以及阿里雲的基礎產品,在這上面我們會有一些生態化的產品。

以下將介紹幾個典型用戶案例。

13.jpg

在春節期間,我們和好未來達成了合作。它旗下的直播雲教育平臺,在合作過程中有非常大的業務量增長,使用的是Elasticsearch+Logstash+Kibana+Beats的產品組合。在疫情期間,業務量的峰值和平時相比,有翻倍的Elasticsearch集群擴容的需求,我們在分鐘級完成了集群擴容,讓客戶的用戶體驗得到最佳表達。翻倍的擴容不止需要把資源要過來,還需要把數據擴上去,並在不需要的時候,把資源還回去。這個是我們所擁有的非常重要的彈性擴縮能力,能很好地滿足用戶需求,讓他在成本上達到最優。

14.jpg

上圖使用開放搜索的典型電商app,主打運動潮流,有很多粉絲,對搜索效果非常關注。該客戶曾選擇自建搜索,但在擴容處理、搜索排序上缺乏些經驗,搜索無結果率曾達到60%。後來,我們和客戶一起優化,通過開放搜索產品疊加了我們阿里內部搜索算法的沉澱,包括分詞、查詢語義理解、query的改寫等。功能上線後,搜索無結果率下降了80%,交易轉化率提升了9%,這意味著搜索的改動帶來了GMV的直接增長。

15.jpg

以上是同時使用開放搜索和智能推薦的著名IT社區——CSDN。他們之前做法是提交URL,由別人抓,提供索引,有了索引之後,再通過大搜索的方式去查,做站內的限制,這是非常流行的模式,但這個模式的流量變現是受制於人的,非常脆弱。同時,大的通用方案無法改善搜索效果,提交的URL沒有辦法100%保證被收錄,更無法保證搜索結果的召回和相關性。通過開放搜索的方案,定製了這些能力後,效果比自建的方案和原合作方案都要好,PV_CTR比自研的高1倍以上,CSDN現在已順利地支撐了網站的搜索服務。

16.jpg

眾安保險在阿里雲Elasticsearch上是比較大規模的用戶,我們幫助他提升了性能,優化成本,在數據庫檢索加速場景滿足了多表關聯的查詢需求和高可用性的要求,並保證金融類企業異地容災部署的需求。

加入社群

點擊訂閱《阿里雲搜索與推薦技術交流期刊》

掃碼入群,瞭解更多資訊

5aa4fa1e3fa84556b22e9ae931cffd4d.jpg

Leave a Reply

Your email address will not be published. Required fields are marked *