大數據

AI·OS新探索:端到端算法工程平臺

特邀嘉賓:張迪--阿里巴巴集團資深技術專家
視頻地址:https://yunqi.aliyun.com/2020/session54?liveId=44646

AI驅動淘寶搜索、推薦、廣告技術的深入發展

今天你在淘寶上所看到的大量的內容,都已經是千人前面的個性化,其中搜索推薦廣告業務作為核心的內容分發形態,在這其中發揮了重要的作用。在過去的5年,以深度學習技術為代表的AI技術成為搜索推薦廣告業務突破的核心驅動力。深度學習的核心要素是算力、算法和數據,如何構建一個高效的端到端AI平臺,直接決定了業務的天花板和迭代進化效率。
image.png

1.算力需求持續提升
在AI 算法越來越智能的背後,是對於算力需求的持續提升。
• 從算法視角來看,算法工程師希望可以像搭積木一樣自由進行模型設計組裝,並且快速進行效果驗證,從而模型複雜度也越來越大,其中包含稀疏理解表徵,持續行為刻畫以及全連接網絡的各種網絡結構的負荷
• 從計算規模角度看,模型規模達到百億特徵,千億參數,模型大小達到TB量級,對模型訓練和在線模型預估都是巨大的挑戰。
image.png

2.算法多樣性的提升
算法多樣性越來越高,標準的DNN模型以外,圖聲音網絡、強化學習、基於樹的深度學習等技術也在淘寶的業務中得到了廣泛的應用。

• 圖聲音網絡可以刻畫用戶和商品之間的連接,從而使用GraphEmbedding技術提升商品召回能力;
• 強化學習技術優化廣告中的OCPC智能出價,從而使廣告組的每一分錢花的更加精準;
• Tree-based Deep Match技術在廣告召回功能,融入了更強大的模型刻畫能力。

端到端的算法平臺

算法的複雜度、多樣性都越來越高,這一切都需要一個高效的端到端算法平臺來保障。
1.3個維度的優化目標

AI算力的無限需求
持續的釋放深度學習的算力,從而推高算法效果的天花板;
加速迭代效率
端到端的一致性體驗,保障算法的全流程迭代效率;
賦能算法創新
平臺設計要有足夠高的靈活性,支持算法形態的持續創新;

2.AI·OS大數據深度學習工程技術體系
AI·OS作為大數據深度學習工程技術體系,發展至今包括AIOfflinePlatform(一站式建模平臺)和AIOnlineServing(AI在線服務體系),在離線系統無縫鏈接,構成了端到端大數據AI智能引擎。目前支撐起海內外阿里電商全部的搜索、推薦、廣告業務,時刻置身大數據主戰場,引導成交佔據集團電商大盤主體;此外,作為中颱技術中堅,AI·OS已是包括電商、阿里雲、優酷、菜鳥、盒馬、釘釘等等在內全集團的基礎設施,更為重要的是,AI·OS體系的雲產品(開放搜索和智能推薦)矩陣通過阿里雲服務於全球開發者。
image.png

3.工業級機器學習解決的問題
工業級機器學習解決的問題的複雜性不單是關注算法模型的代碼的開發,而是一個涉及在離線閉環的,包括特徵、樣本,模型的全鏈路問題。
image.png

4.一站式建模平臺
面向搜索、推薦、廣告這樣的場景,開發了一站式建模平臺,提供包括特徵管理,樣本組裝,模型訓練與評估,模型交付的全鏈路端到端的能力。

一站式建模平臺底層基於KubeFlow雲原生底座,提供批量學習 (Batch)和流式學習(Online )的能力。
XFC提供標準化特徵的管理和動向,Channel是樣本計算的概念抽象,Model center是模型工廠部分提供的模型訓練、模型共享、模型交付。
image.png

模型分析系統多維度模型可視化分析和模型安全性的校驗,基於這些的邏輯抽象,算法工程師不需要關注底層系統的運行,只要編輯算法流程的邏輯描述,即可實現的算法流程的開發部署以及線上運維。在此基礎上平臺內建了統一的計算存儲的血緣管理,基於此關係,以及算法邏輯描述的分析,平臺有一套計算存儲編輯優化層,可以自動的進行特徵、樣本、模型數據的共享和計算存儲的優化。例如:當我們發現2組算法實驗流程特徵重合度很高時,我們的系統會自動合併兩組特徵計算和存儲,大大提升整個平臺的存儲效率。
通過以上平臺級賦能更多的業務創新可以實現更低的成本實現工程實施與效果驗證,從而實現產品創意到算法,到工程的快速迭代循環。

批流一體的在線深度學習解決方案

隨著對著業務時效性的追求越來越強,在線深度學習技術越來越重要。為此我們提供了批一體的在線深度學習解決方案,使得模型可以實時更新,業務則可以及時的捕捉用戶的行為變化。

1.什麼是批流一體
就是可以用一套算法邏輯描述既可以進行天級的批量學習,也可以進行在線實時學習,這樣可以大幅減少算法流程開發的複雜度,還可以保障全量模型和實時模型之間的一致性。

• 基於Blink進行特徵樣本的實時計算,得益於Blink強大的計算能力,可以提供百萬級QPS的流失樣本的高可靠計算,基於XDL深度學習框架模型進行深度實時訓練,同時可以提供高可靠的實時模型校驗能力,最後把模型實時變化的更新成RTP在線模型服務,最快可以提供端到端的分鐘級模型更新能力,在阿里的搜索、推薦、廣告業務上發揮巨大作用,大幅度提升了系統時效性。

image.png

2.XDL:高維稀疏訓練引擎
深度學習的算力的提升,主要提現了兩個關鍵環節

  1. 深度模型訓練的效率;
  2. 深度模型在線預估的效率;
    搜索推薦廣告是高維稀疏的場景,特徵規模和參數規模高達百億、千億量級,模型呈現既寬又深的特點,需要同時進行寬度計算優化和深度計算優化.

image.png

XDL是面向高維稀疏場景打造的分佈式深度學習訓練框架
• 進行大量的分佈式模型優化,重新設計高性能的參數服務器,基於實時統計的動態參數放置策略,消除參數服務器的計算熱點,同時實現優雅的分佈式容災策略,以便進行更高效的高併發訓練。
• 在計算加速上,進行大量分佈式計算圖優化,包括高性能數據處理流水線,稀疏算子融合,參數交換的通信合併,極致的計算和通信的異步化等。一系列優化使得XDL可以支持數百億特徵,數千億參數,千級數據平行的分部署式高維稀疏訓練,優秀的自動分佈式能力和自動流水線能力使得模型開發人員無需關心底層的細節,只需關注自身的模型開發邏輯即可;
• 在高層範式層面,XDL支持良好的結構化訓練和流式訓練能力,結構化訓練是指利用搜索推薦廣告場景下互聯網樣本結構化的特點,充分減少前項計算和後項計算,大幅提升訓練效率。

3.RTP:分佈式預估服務
RTP,作為AIOS提體系的分佈式深度學習預估服務,將機器學習在線預測能力模塊化提供了強大的模型應用編排能力,使得機器技術可以應用到搜索推薦廣告在線服務的全鏈路中,包括召回,精排,重排以及摘要選取等各個環節。
RTP還可以提供分佈式模型和分佈式特徵之間的全量一致性切換語義,也可以支持TB級別模型的在線服務。
• 深度模型的在線推理效率是至關重要的,需要在一定延遲約束下,進行大量深度學習的計算,為此在推理異構計算方面RTP集成了專門的異構推理計算加速引擎,可以同時支持FPG、CPU、GPU、阿里NPU等各種各樣的異構硬件,為業務在深度學習領域提供了巨大的算力;
• 從離線訓練的模型到在線預估模型,整個交付環節是也很重要,在這個過程中,需要對模型進行量化壓縮,模型計算圖改寫邏輯,從而保證模型的在線推理邏輯的最大化。
image.png

總結

為了支持算法快速的迭代,淘寶構建了一套在離線閉環的端到端算法平臺,使得算法解決方案可以在不同場景之間快速複製與遷移,針對核心的訓練引擎和預估引擎,結合搜索推薦廣告的高維稀疏的特點, 進行深入的場景優化,使得AI算法可以充分利用算力來推升算法效果的天花板。


以上就是本次雲棲大會--“阿里是如何構建一個高效的端到端AI算法平臺”的內容。如果您對搜索與推薦相關技術感興趣,歡迎加入釘釘群內交流~

image.png

【開放搜索】新用戶活動:阿里雲實名認證用戶享1個月免費試用https://free.aliyun.com/product/opensearch-free-trial

Leave a Reply

Your email address will not be published. Required fields are marked *