阿里巴巴飛天大數據平臺機器學習PAI最新特性

以下內容根據演講視頻以及PPT整理而成。
本次分享主要圍繞以下五個方面：
• PAI產品簡介
• 自定義算法上傳
• 數加智能生態市場
• AutoML2.0自動調參
• AutoLearning自動學習

一、PAI產品簡介與功能發展

PAI-Studio
在PAI的架構圖中，最下層的是PAI的計算框架和數據資源。PAI可支持MaxCompute、OSS、HDFS和NAS等多種數據資源。在數據資源和多種計算框架基礎之上，誕生出了PAI的最早形態：PAI-Studio——可視化建模實驗平臺，Studio中包括了兩百多種算法，覆蓋了數據預處理，特徵工程，模型訓練，評估預測等全鏈路的實驗流程操作。用戶可在PAI-Studio中以拖拽的方式構建實驗，而無需複雜的操作。此外，PAI內置了鯤鵬計算框架，可支持百億特徵，百億樣本的超大規模矩陣訓練。在最初建立過程中，PAI-Studio的定位目標為中級的算法工程師，即一個不需要很高的技術門檻就可以上手使用的算法平臺。有了可視化建模Studio，PAI就可以擁有為用戶提供業務支持，如構建推薦系統、金融風控、疾病預測或新聞分類等的能力。

PAI-EAS
然而，從Studio中算法和實驗的構建，到真正成為用戶可用的模型服務，其中間還存在一個gap，即如何將模型部署為在線服務。用戶一般需要耗費較大的精力在此之上。為了解決這個問題，PAI平臺隨後推出了PAI-EAS模型在線服務功能，為用戶提供EAS在線服務的一鍵部署功能，大大簡化操作，連接模型構建與生產服務。除了一鍵部署，PAI-EAS模型在線服務功能還支持版本控制、藍綠部署和彈性擴縮容等特性功能。通過PAI-EAS模型在線服務，用戶可以方便的進行構建實驗，並將模型進行在線部署，最後應用到實際業務當中。
PAI-DSW
在PAI之後的發展過程中，出現了新的需求，即有的工程師希望在整個實驗構建過程中有更大的自主發揮空間。為此，PAI推出了PAI-DSW版塊，其特點是使用notebook進行建模，PAI-DSW內置了Jupyter的開發環境，繼承了深度優化的TensorFlow，並且可以可視化編輯神經網絡。由需求的初衷不難發現，PAI-Studio和PAI-DSW最大不同點就在於它為擁有更多算法背景技術的工程師提供更大的發揮空間，因此適合於高級的算法工程師。
PAI-AutoLearning
在解決了高級、中級算法工程師的需求之後， PAI又進一步推出了專門為初級算法工程師量身設計的全新PAI-AutoLearning功能（詳細功能特性會在下文介紹）。繼而，擁有不同的算法能力的工程師都可以通過PAI找到適合自己使用的產品類別。
智能生態市場
通過以上PAI的功能版塊，用戶可以根據自身特點迅速找到適合自己的板塊，並快速部署服務到業務中去，但這些都是需要用戶自身來開發完成。隨著AI行業應用的不斷髮展，如何讓藉助他方的能力、智慧，來快速解決自己的業務需求，又成為了一個新的問題解決思路。為此，PAI推出了——智能生態市場功能版塊。用戶可以在智能生態市場中尋找自己業務問題的解決方案（如模型、算法或者應用等），快速獲取能力，避免了不必要的開發人力資源的耗費。反之，擁有對應技術的開發人員或公司，又可以在智能生態市場中一展才能，售賣發佈商品，並獲取相應回報及品牌。

二、自定義算法上傳

自定義算法上傳是PAI-Studio內的一個功能。機器學習在實際的應用過程當中，有千萬種與行業結合的可能性和應用場景，用戶會有一些個性化的需求。儘管PAI-Studio為用戶提供了兩百多種算法組件，但依然不能滿足每一個用戶的每一個需求。通過自定義算法上傳功能，用戶可以開發自己的算法組件，方便後續使用。
• 自定義算法上傳特性
自定義算法上傳包含三個特性。首先，自定義算法上傳功能兼容Spark生態，支持Spark和PYSpark框架，在這個框架下用戶可以任意開發自己所需要的算法。其次，自定義算法上傳功能支持便捷發佈。為了避免在自定義算法發佈過程中，花費的精力大於最終帶來的效率收益，PAI在自定義算法上傳功能設計的過程當中，著重強調便捷發佈，提供分鐘級的算法發佈體驗。自定義算法上傳第三個特性是可視化配置。從上傳算法包，到真實的拖拉拽PAI-Studio中可使用組件，其中還包含一個步驟，既配置組件的算法參數以及相關配置。PAI為用戶提供了可視化的在線操作配置的方式。

三、數加智能生態市場

1.智能生態市場角色
智能生態市場是大數據和AI領域的一個淘寶平臺，其最大的作用是連接了開發方和業務方。在此之前，開發方有自己的能力和技術，業務方有需求和想要解決的問題。但兩方一直沒有辦法很好的連接在一起，通過數加智能生態市場平臺，將開發方的技術和業務方的需求進行對接，兩方都可以通過平臺獲取利益。首先，開發方可以打通產品快速發佈售賣，收穫品牌效益，同時掌握市場動態需求。另外，業務方可以通過智能市場更便捷的獲取適合自己的業務解決方案。同時降低探索新業務的成本，還可以擴展基礎事業，快速實現公司技術的優化。

如下圖，在智能生態市場鏈路出現以前，用戶只有兩種構建業務解決方案的途徑，一個是通過自己使用機器學習PAI來開發，其中包括實驗的構建、模型部署和應用等步驟；二是選擇行業ISV，ISV通過在行業中的經驗為客戶構建出不同的，可部署在實際業務中的模型，解決客戶的業務需求。但這兩種方案的前者需要投入較大的人力成本，後者需要較大的財力成本。有了數加智能生態市場之後，用戶可以選擇第三條平衡人力和財力成本的新途徑，通過向算法模型開發者購買最新的模型或者解決方案，解決自己的實際業務問題。這是加智能生態市場所建立的功能目標，以及它可以為客戶和開發者帶來的價值。

數加智能生態市場的子版塊
數加智能生態市場包括四大板塊。首先，在市場板塊中用戶可以進行大數據智能商品的買賣交易。既有業務需求的用戶可以找到業務問題的高效解決方案，開發者可以通過技術的傳播和共享，獲取回報和品牌效益。第二個板塊是培訓板塊，培訓板塊可以提供市場相關平臺的使用指導和案例講解，為用戶提供實用的培訓，快速上手大數據的智能業務，實現快速入門。第三個板塊是認證板塊，主要面向開發者同學。在認證板塊中開發者同學可以獲取Apsara Clouder技能的認證證書，通過認證提升開發的專業技能，並獲得官方資格的評定。第四個板塊是論壇版塊，大數據智能用戶以及相關興趣愛好者都可以在論壇相互交流，獲取最新的前沿技術和知識。

通過以上四個板塊，構建了一個有機生態圈。智能生態市場為用戶提供培訓，為開發的同學提供認證。用戶和開發同學之間通過市場建立互相買賣的交易關係，並且獲取各自的需求。同時三者之間可以構成一個論壇的有機生態。

商品發佈流程簡介
下圖是數加智能生態市場主界面。開發者通過主界面進行賣家入駐，填寫個人信息，提交審核。通過審核之後，賣家擁有了在市場上售賣商品的資格。賣家可以進行商品發佈，首先選擇商品的種類，如發佈解決方案商品，輸入商品名稱，商品介紹以及來源渠道。在來源渠道里中填寫商品的跳轉鏈接，由於解決方案商品屬於比較開放式的商品的類型，開發者可以發佈自己相關的名片，方便更進一步的溝通和聯繫。此外，還可以在數加智能生態市場中發佈算法商品。算法商品和自定義算法上傳功能是相通的。自定義算法上傳配置完之後有一個發佈按鈕，點擊發布按鈕就可以發佈到數加智能生態市場。商品通過審核之後，可以點擊上架操作，上架操作完成之後頁面中生成一個商品的智能客服機器人，其中已經預置了商品的基本問答，在客戶想要來了解商品信息時，可以通過智能客服機器人進行初步的商品信息獲取，若智能客服機器人無法提供足夠的信息量，還可以通過預留的釘釘號進行進一步的溝通聯繫。

四、AutoML2.0自動調參

1.AutoML2.0特性
AutoML自動調參功能是PAI-Studio中的核心功能。PAI-Studio可以進行可視化的建模操作，但模型構建好之後，如何進行參數調整，並達到最好的實驗效果，是用戶經常面臨的問題。AutoML即以此為目的，解決實驗的調參問題。AutoML2.0自動調參功能包含三大特性。首先是一鍵自動調參數，包括自動調整參數、模型評估和模型傳導。此外，AutoML2.0支持七種調參算法，如GritSearch、Random Search、PBT、Gause、Evolutionary等常見的調參算法。實踐證明，AutoML2.0可以幫助用戶節省90%的工作量，大幅降低了用戶在建立機器學習模型過程中所花費的時間以及人力成本。

2.自動調參實踐示例
在這裡，我們選擇GBDT迴歸模型來進行調參，在自動調參的界面配置中選擇數據的拆分比例，一部分數據用於訓練模型，其餘數據用於模型的評估。AutoML2.0現在可支持的七種調參方式，包括Gause、PBT、SAMPLE、隨機搜索、方格搜索、自定義搜索以及Evolutionary優化調參方式。這七種調參方式已經涵蓋了目前主流的調參方式。這裡我們選擇Evolutionary 優化調參方式，下面需要配置Evolutionary 優化調參方式所需要配置的搜索的樣本數目，探索次數，收斂係數，定義參數範圍。配置結束後，便會自動生成模型，示例中一共生成了11個模型，那如何從11個模型中選擇最好的模型？自動調參頁面中為用戶提供了選擇的標準，MAE，既通過MAE對生成的模型的質量高低進行排序，用戶可以保存前幾名模型，進行進一步的操作。

如下圖，在自動調參詳情頁可以看到多次迭代之後，對模型效果的改善是非常直觀的。隨著迭代次數的逐步增加，模型的效果越來越好。縱座標是MAE值，MAE值越低，代表模型的誤差越低。隨著迭代次數上升，模型的質量也越來越高，這證明了AutoML調參功能的有效性。

五、AutoLearning自動學習

1.AutoLearning特性
PAI-AutoLearning自動學習功能是PAI最新推出的功能之一。在AutoLearning自動學習功能出現之前，PAI中的PAI-Studio，PAI-DSW分別為中級算法工程師和高級算法工程師對應解決了他們的實驗構建需求。而PAI-AutoLearning則通過提供小白級、零門檻的一個工具，解決了初級或入門級算法工程師的實驗構建需求，使更多的人蔘與到機器學習，使用機器學習為自己的業務帶來價值。AutoLearning自動學習功能有以下亮點。首先是零門檻使用，即功能開箱即用，對於小白同學特別友好。其次是最低基於5張圖片就可進行一次學習。通過強大的遷移學習框架，PAI-AutoLearning可實現少量數據的有效學習，學習訓練的結果依然非常出色。第三個亮點是AutoLearning實現了一站式解決方案。一站式包括從數據標註、模型訓練、模型部署的整個過程，幫助小白用戶也可以快速地入門機器學習的實際應用。

AutoLearning自動學習使用實例
在AutoLearning自動學習功能板塊，點擊從模板創建。模板創建是適用於新手快速入門的一個功能體驗，用戶可以迅速的體驗到整個自動學習的功能特性。頁面中預置好了實驗中需要的訓練數據，如圖片分類實驗，數據集中包含不同的動物種類，通過訓練可以生成準確識別動物種類的深度學習的模型。

首先，在深度學習訓練之前需要對深度學習算法提供有效的數據。有效數據需要對數據進行標註。因此，第一步是對數據的打標，AutoLearning自動學習板塊內置集成數據標註功能，幫助用戶快速的進入數據打標。第一步是在圖片中添加標籤，動物種類包括羊駝、馬和騾子，快速勾選同一類的動物，將其標記為羊駝，馬或騾子。在開始訓練頁面中輸入訓練時長，訓練時長是決定最終模型訓練效果的一個關鍵的因素，訓練的時間則越長模型效果越好。Auto Learning板塊特色是可以在短時間內快速訓練出較為精準的模型，只需十分鐘就可以訓練出一個訓練分類效果不錯的模型。相比於傳統深度學習模型訓練這點的改進非常明顯。
此外，開始訓練頁面中另外一個選項是增量訓練。增量訓練表示是否在原有的訓練模型基礎上繼續進行進一步的訓練。在模型訓練及評估界面，可以看到訓練好的模型結果，模型指標包括準確率、精準率，召回率值，表示模型對當前的訓練結果的有效性程度。用戶可以點擊上傳新的圖片，檢驗模型預測性能。那麼驗證好的模型該如何運用到實際生產當中去呢，Auto Learn ing自動學習功能已一站式業務構建流程，用戶在此界面可直接點擊前往EAS部署就可以將模型部署為服務，應用到實際的生產中進行產出。

一、PAI產品簡介與功能發展

二、自定義算法上傳

三、數加智能生態市場

四、AutoML2.0自動調參

五、AutoLearning自動學習

Leave a Reply Cancel reply