雲計算

超詳攻略!Databricks 數據洞察 – 企業級全託管 Spark 大數據分析平臺及案例分析

開源大數據社區 & 阿里雲 EMR 系列直播 第四期

主題:Databricks 數據洞察 - 企業級全託管 Spark 大數據分析平臺及案例分析
講師:棕澤,阿里雲技術專家,計算平臺事業部開放平臺-生態企業團隊負責人
內容框架:

  • Databricks 數據洞察產品介紹
  • 功能介紹
  • 典型場景
  • 客戶案例
  • 產品Demo

直播回放:掃描文章底部二維碼加入釘群觀看回放


一、Databricks 數據洞察產品介紹

1、 Databricks 公司簡介
2、 什麼是阿里雲 Databricks 數據洞察產品

01\ Databricks 公司簡介

640 (11).png

① ApacheSpark 創始公司,也是 Spark 的最大代碼貢獻者,Spark 技術生態背後的商業公司。

在2013年,由加州大學伯克利分校 AMPLab 的創始團隊 ApacheSpark 的創建者所成立。

② 核心產品和技術,主導和推進 Spark 開源生態

ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform

③ 公司定位
  • Databricksis the Data + AI company,為客戶提供數據分析、數據工程、數據科學和人工智能方面的服務,一體化的 Lakehouse 架構
  • 開源版本 VS 商業版本:公司絕大部分技術研發資源投入在商業化產品
  • 多雲策略,與頂級雲服務商合作,提供數據開發、數據分析、機器學習等產品,Data+AI 一體化分析平臺
④ 市場地位
  • 科技獨角獸,行業標杆,領導Spark整體技術生態的走向及風向標
  • 2021年最受期待的科技上市公司

02\ Databricks 公司估值及融資歷史

(來源 Databricks 官網)
① 2019年10月G輪,估值 $ 6.2 Billion
② 2021年2月初F輪,估值 $ 28 Billion
  • 本輪融資,三大雲服務商 AWS、GCP、MSAzure 以及 Salesforce 都進行了跟投——足以看到雲廠商對 Databricks 的發展的重視
  • 上市預期:計劃 IPO 在2021年——多方預測 Databricks 上市之時其估值可能達到350億美元,甚至是高達500億美元

640.png

03\ Databricks 和阿里雲聯手打造的高品質 Spark 大數據分析平臺

640 (1).png

  • Apache Spark 背後的商業公司,Spark 創始團隊,美國科技獨角獸
  • 在全球擁有5,000多個客戶和450多個合作伙伴,品牌認知強
  • 2020年,在 Gartner 發佈的數據科學和機器學習(DSML)平臺魔力象限報告中,位於領導者象限

640 (2).png
640 (3).png

04\ Databricks + 阿里雲 = Databricks 數據洞察

Dingtalk_20210524160041.jpg

產品核心:
  • 基於商業版 Spark 的全託管大數據分析& AI 平臺
  • 內置商業版 Spark 引擎 Databricks Runtime ,在計算層面提供高效、穩定的保障
  • 與阿里雲產品集成互通,提供數據安全、動態擴容、監控告警等企業級特性
產品引擎與服務:
  • 100% 兼容開源 Spark,經阿里雲與 Databricks 聯合研發性能優化
  • 提供商業化 SLA 保障與7*24小時 Databricks 專家支持服務

640 (4).png

DDI 產品能力核心構件

640 (5).png

產品關鍵信息與優勢

640 (6).png

二、DDI 產品功能介紹

1、整體架構
2、引擎能力
3、性能
4、功能
5、成本

01\ 阿里雲 Databricks 數據洞察 (DDI) 架構

640 (7).png

02\ 引擎:企業級性能優化,提升計算引擎效率和數據讀寫效率

企業級高性能、穩定性、可靠性

640 (8).png

03\ 企業級 Databricks Runtime vs 社區版 Open Source Spark

640 (9).png

04\ 基於計算存儲分離的架構,HDFS vs OSS 成本的對比

640 (10).png

05\ 基於 JindoFS 進行 OSS 訪問優化加速,優化數據訪問性能

640 (12).png

06\ 交互式分析 Notebook ,聚集數據

優化的 Apache Zeppelin

  • 多語言支持
  • Scala、Python、Spark SQL、R
  • 交互式分析
  • 數據可視化
  • 集成調度能力
  • 一站式開發平臺
  • 多用戶協作開發

640 (13).png

07\ 數據開發作業提交 & 工作流調度

  • 支持 jar 包提交作業及作業調度能力
  • 支持 Spark/Spark Streaming/Notebook
  • 不同作業類型工作流混合調度
  • 支持調度運維、審計日誌、版本控制等

640 (14).png

08\ 豐富的數據源支持

640 (15).png

09\ 元數據管理

三種元數據選擇的方式

640 (16).png

三、典型場景

1、客戶存在的痛點問題及 DDI 如何解決
2、Lambda 架構到批流一體架構
3、Lakehouse 架構的演進
4、DDI 在阿里雲中產品的組合

01\ 開源大數據平臺客戶普遍存在的痛點問題

640 (17).png

02\ Databricks 數據洞察在四大場景幫助客戶提升生產效率

640 (18).png

03\ Delta Lake 的項目背景以及要解決的問題

640 (19).png

04\ 大數據發展進入 Lake House 時代

640 (20).png

05\ 使用 DDI 構建批流一體數倉,簡化複雜架構

640 (21).png

delta_lake.png

06\ DDI 在阿里雲產品中的組合

640 (22).png

07\ Databricks 數據洞察典型架構

DDI 與阿里雲產品深度集成(典型場景)

數據獲取
  • 接收實時產生的流式數據和外部雲存儲上批量數據。
數據 ETL
  • 持續高效地處理增量數據,支持數據的回滾和刪改,提供 ACID 事務性保障。
BI報表數據分析 & 交互式分析
  • 支持 Ad hoc 查詢,Notebook 可視化分析,無縫對接多種BI分析工具。
AI數據探索
  • 支持機器學習,Mllib 等 Spark 生態 AI 場景。
上下游網絡打通
  • 如上游對接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存儲等。

四、典型場景客戶案例介紹

1、基智科技(STEPONE)自建上雲案例
2、工業製造頭部公司數據分析案例

客戶案例 01:基智科技(STEPONE)Databricks 上雲遷移

本架構描述利用 Databricks 數據洞察 解決客戶大數據計算問題:

  • 數據存儲:自建 Hive數倉-》OSS (降低存儲成本,同時做計算存儲分離)
  • 大數據分析:自建 CDH -》Databricks 數據洞察(全託管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 調度, Python 庫的安裝方便等)
  • 元數據:自建 CDH -》RDS MySQL 自建元數據庫或使用 DDI 統一元數據庫
  • 數據遷移:使用 DistCp 或 JindoDistCp 將數據遷移到 OSS,數據結果同步繼續使用Sqoop 定時任務

640 (23).png

客戶成本收益分析

  • 全託管 Spark 集群免運維,節省人力成本(省1運維+ 1大數據,此外免去性能調優)
  • 相比自建機器資源多了3倍,此外算上 Databricks Runtime 相比開源 spark 來說(預估3倍),整體性能提升9倍
  • Notebook 交互式分析+ DAG 工作流調度,提升數據開發/分析體驗
  • 技術方案統一,計算存儲分離方案 OSS 存儲節省客戶存儲成本,併為以後數據湖、多計算架構鋪路
  • Delta Lake 解決了客戶增量數據更新的問題

640 (24).png

客戶案例 02:工業製造頭部空調公司– 大數據分析方案架構

  • 數據收集/存儲: 接收實時產生的流式數據和外部雲存儲上批量數據
  • 數據 ETL:持續高效地處理增量數據,支持數據的回滾和刪改,提供 ACID 事務性保障
  • BI數據分析&交互式分析: 支持查詢,Notebook 可視化分析,無縫對接多種BI分析工具
  • 數據科學:支持機器學習/深度學習
  • ⽣態對接:如上游對接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存儲等

640 (25).png

更多精彩內容,歡迎掃描文章底部釘釘群二維碼,進群觀看直播回放哦!


獲取更詳細的 Databricks 數據洞察相關信息,可登錄以下鏈接,也可以直接點擊閱讀全文跳轉產品詳情頁:

https://www.aliyun.com/product/bigdata/spark
(當前產品提供¥599首購試用活動,歡迎試用!)

阿里巴巴開源大數據技術團隊成立 Apache Spark 中國技術社區,定期推送精彩案例,技術專家直播,只為營造純粹的 Spark 氛圍,歡迎關注公眾號!

掃描下方二維碼入 Databricks 數據洞察產品交流釘釘群一起參與交流討論,進群直接在群內觀看直播回放哦!

a52be0628cfa4449956cf7879325c8b0.jpg

Leave a Reply

Your email address will not be published. Required fields are marked *