SPARK中文峰會上海會場預告篇｜Ray On Spark

本週六下午，上海會場的講師已經準備就緒～

SPARK + AI SUMMIT 2020 中文精華版線上峰會，十四位來自北京、上海、杭州、硅谷的PMC和意見領袖，一一還原英文現場的經典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、領英等一線廠商的經典應用場景外，還有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇議題及社區生態的最新落地。

點擊詳細議程

7月4日下午議題：

黃凱.jpg
黃晟盛.jpg
李呈祥.jpg
章劍鋒.jpg
王道遠.jpg
邱鑫.jpg

使用 RayOnSpark 在大數據平臺上運行新興的人工智能應用

黃凱
Intel 大數據團隊軟件工程師。負責開發基於 Apache Spark 的數據分析和 AI 平臺，同時支持企業客戶在大數據平臺上構建端到端的深度學習應用。他是大數據和 AI 開源項目 Analytics Zoo 和 BigDL 的核心貢獻者之一。

隨著近幾年AI的快速發展，把新興的人工智能技術基於大量生產數據去實際落地的場景和需求也越來越多。Ray是由UC Berkeley RISELab開源的一個能快速和方便構建新興人工智能應用的框架。但我們發現在生產環境中，直接把Ray的程序部署運行在大數據的集群上並不是一件容易的事，常用的做法會需要兩個不同的集群去分別運行大數據的應用和人工智能的應用，這樣會增加許多數據傳輸以及集群維護的開銷。而利用我們開發的 RayOnSpark 功能，用戶能直接在現有的 Apache Hadoop/YARN 集群上運行各種新興的AI應用，包括分佈式神經網絡訓練、可擴展的 AutoML 用於時序預測以及分佈式的強化學習等等。本次分享主要為大家介紹開發 RayOnSpark的初衷、實現細節和實際的應用案例。

將基於Ray的可擴展AutoML用於時序預測

黃晟盛
Intel 大數據和 AI 方向的資深軟件架構師，在大數據領域工作超過10年，在AI領域工作超過5年。她是 Apache Spark 的committer 和 PMC member，也是 Big Data + AI 開源項目Analytics-Zoo 和 BigDL 的重要貢獻者。目前，她在 Intel AnalyticsZoo 團隊主要帶領自然語言處理，時序分析和強化學習相關的新功能開發和解決方案構建。

時序預測在現實中有著很廣泛的應用，如通訊網絡質量分析、數據中心日誌分析、高價值設備維護等。雖然傳統方法在時序預測中仍然佔據主導地位，機器學習和深度學習正成為新的趨勢。然而構建機器/深度學習應用是一個費力且需要大量專業知識的過程，為了給我們的用戶提供更易用的時序預測工具，我們基於Ray構建了一個分佈式AutoML的框架用於自動化時序預測模型的訓練。在這個演講中我們將分享我們的工作以及真實的應用案例和經驗總結。

Apache Spark 3.0 中的 SQL 性能改進概覽

李呈祥
花名司麟，阿里雲智能EMR團隊高級技術專家，Apache Hive Committer， Apache Flink Committer，目前主要專注於EMR產品中開源計算引擎的優化工作。

Spark 3.0提供了很多新的性能優化，例如dynamic partition pruning和enhanced pushdown，每個優化可能會對某一類型的SQL有較好的效果。由於新特性數量眾多，用戶很難一一深入理解，本次議題主要使用示例介紹這些特性，並解釋其背後的原理以及如何使用提高查詢性能。

using databricks as an analysis platform

章劍鋒
花名簡鋒，開源界老兵，Apache Member，曾就職於 Hortonworks，目前在阿里巴巴計算平臺事業部任高級技術專家，並同時擔任 Apache Tez、Livy 、Zeppelin 三個開源項目的 PMC ，以及 Apache Pig 的 Committer。

過去一年，YipitData 開始將將自己所有的data pipeline遷移到Databricks的spark平臺。現在Databricks平臺已經幫助YipitData的40多位數據分析師來做數據收集，管理ETL workfow。YipitData的數據分析師可以在無需數據工程師的幫助下自己獨立的管理端到端的data pipeline，包括管理1700多個database，51000張table。
這次的演講會主要講述YipitData基於Databricks的底層數據架構以及數據分析師如何用PySpark來管理自己的workflow。在YipitData，我們逐步改進抽象我們的data pipeline使得我們的數據分析師可以更加簡單安全的做數據轉換，存儲和清洗。
此外這次演講還會講述我們如何將Airflow整合到Databricks中，使得分析師可以構建健壯的ETL workflow。系統管理員和工程師可以學習到如何利用Databricks平臺和Airfow來發現潛在的優化點和創造業務價值。

自適應查詢執行：在運行時加速Spark SQL

王道遠
花名健身，阿里雲EMR技術專家，Apache Spark活躍貢獻者，主要關注大數據計算優化相關工作。

長期以來，Spark社區一直在持續優化 Spark SQL，希望能生成更高質量的執行計劃。基於代價模型的優化收集數據的各種統計信息來優化執行計劃，比如選擇更合適的join算法，或是調整join順序。但是，統計信息可能不是始終保持最新，錯誤的統計信息有可能導致選取較差的執行計劃。Spark 3.0新引入的自適應查詢執行優化，會在運行時根據執行過程中收集到的統計信息，重新優化調整執行計劃。本議題會介紹自適應查詢執行的整體框架，以及自適應查詢針對以往實際使用Spark過程中遇到的一些常見問題的解法。我們會用一些查詢的例子來展示自適應查詢背後的原理。最後，我們會分享使用自適應查詢執行功能在TPC-DS上測出來的性能提升。

Spark“數字人體”AI挑戰賽賽題解析一 Analytics-Zoo 入門

邱鑫
邱鑫，英特爾高級軟件工程師。 BigDL 和Analytics Zoo 的核心貢獻者。

本次直播將培訓Spark天池大賽的選手使用英特爾Analytics-Zoo 平臺

釘釘群同步直播，歡迎釘釘掃碼加入Apache Spark中國技術交流社區！
二維碼.JPG

對開源大數據和感興趣的同學可以加小編微信（下圖二維碼，備註“進群”）進入技術交流微信群。

Apache Spark技術交流社區公眾號，微信掃一掃關注