開發與維運

SPARK + AI SUMMIT 2020 中文精華版線上峰會—7月4日上午議題

就在本週六、日

SPARK + AI SUMMIT 2020 中文精華版線上峰會,在北美結束第一時間“閃電般快速”為諸位奉上一場技術盛筵。本次活動由阿里雲開發者社區牽頭,聯合十四位來自北京、上海、杭州、硅谷的PMC和意見領袖,一一還原英文現場的經典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、領英等一線廠商的經典應用場景外,還有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇議題及社區生態的最新落地。

點擊詳細議程


7月4日上午議題:

李瀟.jpg
範振.jpg
李元健.jpg
周康.jpg


Apache Spark 3.0簡介:回顧過去的十年,並展望未來

李瀟
Databricks Spark 研發部主管,領導 Spark,Koalas,Databricks runtime,OEM的研發團隊。Apache Spark Committer、PMC成員。2011年從佛羅里達大學獲得獲得了博士學位。曾就職於IBM,獲發明大師稱號(Master Inventor),是異步數據庫複製和一致性驗證的領域專家,發表專利十餘篇。(Github: gatorsmile)

我們將分享Apache Spark創建者Matei Zaharia的主題演講,重點介紹Apache Spark 3.0 更易用、更快、更兼容的特點。Apache Spark 3.0 延續了項目初心,在SQL和Python API上取得了重大改進;自適應動態優化,使數據處理更易於訪問,從而最大限度地減少手動配置。今年也是Spark首次開源發佈的10週年紀念日,我們將回顧該項目及其用戶群是如何增長的,以及Spark周圍的生態系統(如Koalas, Delta Lake 和可視化工具)是如何發展的,共同探討處理大規模數據的更簡單、更有效的方案。


在Kubernetes上運行Apache Spark:最佳實踐和陷阱

範振
花名辰繁,阿里雲智能 EMR 團隊高級技術專家。曾在搜狐京東工作,分別參與了 linux 內核、CDN、分佈式計算和存儲的研發工作。目前專注於大數據雲原生化工作。

隨著spark2.3引入spark on kubernetes以來,越來越多的公司開始關注這一特性。主要的原因一方面是在kubernetes上可以更好地隔離計算資源,另一方面是可以為公司提供一個統一的、雲原生的基礎架構技術棧。但是,如何能夠穩定的、高性能的、省成本的以及安全的使用spark on kubernetes是一個很大的挑戰。這次talk,我們主要談一下在建立Data Mechanics平臺(一種serverless形式的spark on kubernetes平臺)的過程中積累的經驗教訓。


Structured Streaming生產化實踐及調優

李元健
Databricks軟件工程師。曾於2011年加入百度基礎架構部,先後參與百度自研流式計算、分佈式Tracing及批量計算系統的研發工作,2017年轉崗項目經理,負責百度分佈式計算平臺研發工作。2019年加入Databricks Spark團隊,參與開源軟件及Databricks產品研發。

流式計算作業從研發完成到正式上線的過程中,往往需要做充分的預上線準備。本次分享旨在從如下四個方向入手,以現場demo的形式探討Structured Streaming生產化實踐及調優:

  1. 數據源相關參數:不合理的參數會增大流式作業計算負載,導致性能降低。
  2. 計算狀態參數:不合理的設置導致無止盡的狀態計算及內存耗盡。
  3. 數據輸出相關參數:常見的小文件問題及應對建議。
  4. 線上作業的修改:針對已有checkpoint的線上作業修改思路及方案。

Apache Spark 3.0對Prometheus監控的原生支持

周康
花名榆舟,阿里雲EMR技術專家。開源愛好者,是 Apache Spark/Hadoop/Parquet 等項目的貢獻者。關注大規模分佈式計算、調度、存儲等系統,先後從事過 Spark、OLAP、Hadoop Yarn 等相關工作的落地。目前主要專注在 EMR 大數據上雲的相關工作。

Apache Spark實現了一個支持可配置的metrics system,用戶在生產環境中可以將Spark提供的metrics數據(包括driver、executor等)推送到多種Sink。Prometheus是一個開源的分佈式監控系統,尤其在雲原生時代被廣泛使用。
Apache Spark也支持以Prometheus作為Sink,將metrics數據推送到Prometheus中來進行監控和報警。目前常見的實現方式有下面幾種:

  1. 使用jmx exporter和Spark的JMXSink結合的方式;
  2. 使用第三方庫;
  3. 實現Sink插件來支持更復雜的metrics;
    本次分享會為大家介紹在Apache Spark 3.0中對Prometheus監控的原生支持,包括如何使用Prometheus特性、目前已經實現的metrics、以及如何對structured streaming 作業進行監控等。

釘釘群同步直播,歡迎釘釘掃碼加入Apache Spark中國技術交流社區!
二維碼.JPG

對開源大數據和感興趣的同學可以加小編微信(下圖二維碼,備註“進群”)進入技術交流微信群。
image.png

Apache Spark技術交流社區公眾號,微信掃一掃關注
image.png

Leave a Reply

Your email address will not be published. Required fields are marked *