大數據

看雲棲說雲棲 —— 機器學習PAI

以下是一段用蒙特卡洛法求PAI近似值的python程序
程序每迭代一百萬次打印一下結果。

屏幕快照 2020-03-13 下午11.51.37.png

以下內容來自阿里雲2019杭州雲棲大會《機器學習專場》。
說實話,在這個分會場我聽懂的東西並不太多。那我就近似的講一講吧,假如偏差比較大的話,那是因為迭代的次數還不夠多。

開場演講的題目叫做《機器學習平臺的建設和思考》。
首先回顧了阿里雲機器學習平臺PAI的建設歷程,最初在阿里巴巴也是各個業務團隊自建機器學習平臺,在2014年阿里雲完成登月計劃統一大數據分析平臺後也開始統一機器學習平臺,當時的叫法是大規模參數服務器。這個平臺在2015年支撐了淘寶的千人前面的推薦,正好在2015年Google開源了TensorFlow,引發了深度學習的熱潮,降低了算法開發的門檻,阿里雲在2016年發佈了PAI1.0,但是很多人還是希望使用深度學習,在2017年PAI 2.0發佈,引入了深度學習,從2018年以來,PAI更加註重平臺化和系統化,更加註重AI的自動化,讓使用者更加關注模型本身,由PAI來完成各種異構硬件的高效優化和執行,加速用戶上線業務模型的速度,通過PAI系統的優化能力來提高效率,降低成本。後面的幾個演講都是圍繞PAI如何進行系統的優化來提高效率的,包括《支持超大規模稀疏數據訓練的深度學習引擎PAI-Tensorflow》、《PAI-Blade 一站式通用推理優化框架》、《EFlops集群:面向大規模AI訓練的硬件基礎設施》。從打磨Tensorflow框架到推理引擎的優化、再到網絡和硬件基礎設施層面的優化,總之阿里巴巴有很多人用圍繞深度學習做了大量的優化工作,比起自己攢機器鼓搗Tensorflow肯定是要事倍功半。

還有兩個演講分別是有關Flink和Spark生態的。
《PAI-Alink:基於Flink的通用算法平臺》講的是阿里巴巴基於Flink的在線實時機器學習庫,包含常用的統計分析、機器學習、文本處理、推薦、異常檢測等算法,覆蓋了數據分析、建模和部署的全部流程。這個平臺的關鍵優勢是支持數十種數據源的流/批式讀寫。
批式讀寫支持:

  • MaxCompute
  • CSV
  • Mongo
  • MySQL
  • AliHbase
  • TDDL
  • 隨機表/張量

流式讀寫:

  • MaxCompute
  • DataHub
  • CSV
  • Tair
  • MetaQ
  • Notify
  • SLS
  • Swift
  • AliHbase
  • TDDL
  • Surfire
  • TableStore
  • Kafka
  • ElasticSearch

從Flink 1.9開始,Flink原有的機器學習庫FlinkML已經不再支持,轉為使用Alink的算法,目標是覆蓋SparkML的全部算法並在性能上持平或超過。

《基於Spark和TensorFlow的機器學習實踐》講的是在阿里雲EMR託管Hadoop集群上的Tensorflow on Spark。假如您對Hadoop生態情有獨鍾,並希望使用Tensorflow也可以使用這個產品。
TensorFlow on Spark的設計目標包括:

  • 方便的與現有的Spark數據處理流程結合
  • 用戶現有TensorFlow程序不需要改動就可以遷移
  • 支持TensorFlow的所有功能
  • 支持高效的數據傳輸,加速從特徵工程到訓練時間
  • PAI TensorFlow底層的通信優化及大量的算法組件
  • 快速支持各種框架接入,包括MXNet,Caffe

在客戶分享環節,請到了攜程和一家一站式育兒服務平臺「親寶寶」來進行分享。在攜程的案例中主要使用了Flink和TensorFlow來進行異常檢測的實時告警,而在親寶寶的案例中使用MaxCompute和PAI來進行用戶畫像和個性化推薦。

前面講了那麼多,最後一個演講《雲原生一站式機器學習平臺PAI》才是整體介紹PAI這個產品的。
PAI這個產品最大的應用場景就是手機淘寶的個性化推薦,手機淘寶擁有7.55億移動月活用戶、數十億的商品、需要結合用戶的購買力、興趣、年齡、家庭等要素進行推薦。

從2012年發展到現在,目前整個PAI平臺包括五大部分:

  • PAI-AutoLearning、自動學習,可零門檻使用。
  • PAI-Studio、可視化建模,通過拖拉拽的方式組合200種算法,可支持百億特徵樣本。
  • PAI-DSW、NoteBook建模,提供jupyter開發環境和深度優化的TensorFlow實現神經網絡的可視化編輯,新近增加pytorch支持。
  • PAI-EAS、模型在線服務,通過上述三種方式建立的模型可以一鍵部署到雲端。
  • 智能生態市場、就像淘寶一樣鏈接技術提供與業務需求方。

Leave a Reply

Your email address will not be published. Required fields are marked *