這次的計算平臺大數據訓練營會涵蓋阿里雲計算平臺幾乎所有的產品。從第一期實時計算Flink開始,到離線和實時一體化的數倉MaxCompute、Hologres。
本期訓練營會講到開源大數據的全家桶——阿里雲 EMR、ElasticSearch、實時計算Flink;也會講到機器學習平臺PAI和數據綜合治理平臺DataWork等等。每一個板塊都會邀請各個領域的技術專家,無論是你對數倉、數據湖、大數據建模,還是機器學習、搜索引擎以及其他的數據智能各種應用感興趣,總會有一款適合你。
帶著前所未有的創新領域和豪華的嘉賓陣容,大數據訓練營歡迎大家一起來體驗和嘗試。
這次訓練營有什麼福利?
很多同學想知道這次訓練營都有哪些福利,那麼今天阿里妹就為你提前“劇透”——來自“E-MapReduce入門訓練營”的《Apache Spark 中文實戰攻略》。在國內Spark參考資料稀缺的情況下,EMR團隊出品的這套專為國內Spark開發者定製的實戰圖鑑絕對是你上手Spark的尖兵利器!
獲得的方法非常簡單——現在免費報名參與EMR入門訓練營或其他大數據訓練營,全套上下冊電子書100%免費得!
話不多說,讓阿里妹帶你先睹為快,看看《Apache Spark 中文實戰攻略(上冊)》都有哪些精彩內容吧!
這本神奇的圖鑑都有哪些內容?
《Apache Spark 中文實戰攻略》分上下兩冊,匯聚國內外頂級大廠技術專家多年的實戰經驗,帶你走進全球頂級開源社區之一Apache Spark,探祕時下最流行的開源分佈式內存式大數據處理引擎。
今天為大家展示的是《Apache Spark 中文實戰攻略(上冊)》—— 讓你的數據處理更簡單!全新收錄了Spark+AI Summit 2020 中文精華版峰會,Apache Spark 3.0 性能優化與基礎實戰一書看遍!
關於Apache Spark
Apache Spark是快速、易於使用的框架,允許你解決各種複雜的數據問題,無論是半結構化、結構化、流式,或機器學習、數據科學。它也已經成為大數據方面最大的開源社區之一,擁有來自250多個組織的超過1000個貢獻者,以及遍佈全球570多個地方的超過30萬個SparkMeetup社區成員。
精彩導讀
ApacheSpark 3.0:十年回顧,展望未來
Spark 3.0是Spark有史以來最大的Release,共包含3400多個patch,幾乎一半的patch都屬於Spark SQL。SparkSQL的優化不僅服務於SQL language,還服務於機器學習、流計算和Dataframes等計算任務,這使得社區對Spark SQL的投入非常大。此外,Spark團隊還付出了大量努力使Spark 2.0的用戶方便地升級到3.0。
今年是Spark發佈的第十年,回顧Spark如何一步步發展到今天,其發展過程所積累的經驗,以及這些經驗對Spark未來發展的啟發,對Spark大有脾益。Databricks Spark研發部主管李瀟帶來了Apache Spark 3.0簡介的全面解析,為大家介紹了Spark的起源、發展過程及最新進展,同時展望了Spark的未來。
數據湖:數據工程師的得力助手
相信作為一個數據工程師,心中都有這麼一個理想的工具:
- 可以持續不斷地對各種各樣的數據源進行增量處理
- 批流合一
- 處理速率高效,智能化生成報表
在本書中,Databricks開源組技術主管範文臣將從數據工程師的角度出發向大家介紹Delta Lake到底是什麼。
實時數倉,快速構建Near-RealTime的Data Pipeline
當離線的同步方案已經不能滿足業務需求,現有離線任務基本都是動輒幾百行SQL,邏輯複雜。在本書中,核桃編程數據架構師盧聖剛將為你分享——應用EMR建設 Delta Lake實時數倉的實踐經驗。
SQL性能改進:不斷進化
從Spark 2.4開始,大概有超過一年半的時間。對於一個比較活躍的開源項目來說,這個時間是非常長的,所以裡面包含了大量的功能增強及性能優化等新的feature在裡面。大概超過50%相關的issue都是和SQL相關的。快來下載電子書,讓阿里巴巴高級技術專家李呈祥為你帶來Apache Spark 3.0中的SQL性能改進概覽的介紹吧。
更多精彩內容和周邊免費拿,盡在“E-MapReduce 入門訓練營”!4天入門EMR,get最好用的雲上數據湖解決方案,趕快報名吧!
活動詳情:點擊這裡