前言
本文翻譯自大數據技術公司 Databricks 針對數據湖 Delta Lake 系列技術文章。眾所周知,Databricks 主導著開源大數據社區 Apache Spark、Delta Lake 以及 ML Flow 等眾多熱門技術,而 Delta Lake 作為數據湖核心存儲引擎方案給企業帶來諸多的優勢。
此外,阿里雲和 Apache Spark 及 Delta Lake 的原廠 Databricks 引擎團隊合作,推出了基於阿里雲的企業版全託管 Spark 產品——Databricks 數據洞察,該產品原生集成企業版 Delta Engine 引擎,無需額外配置,提供高性能計算能力。有興趣的同學可以搜索` Databricks 數據洞察`或`阿里雲 Databricks `進入官網,或者直接訪問 https://www.aliyun.com/product/bigdata/spark 瞭解詳情。
譯者:韓宗澤(棕澤),阿里雲計算平臺事業部技術專家,負責開源大數據生態企業團隊的研發工作。
Delta Lake 技術系列 - 客戶用例
目錄
- Chapter-01 Healthdirect Australia :使用Databricks提供個性化和安全的在線患者護理
- Chapter-02 Comcast:使用Delta Lake和MLflow轉換查看器體驗
- Chapter-03 Viacom18:從Hadoop遷移到Databricks,以提供更多吸引人的體驗
本文介紹內容
Delta Lake系列電子書由Databricks出版,阿里雲計算平臺事業部大數據生態企業團隊翻譯,旨在幫助領導者和實踐者瞭解Delta Lake的全部功能以及它所處的場景。在本文中,客戶案例(Customer Use Case),重點介紹Delta Lake的使用案例。
後續
讀完本文後,您不僅可以瞭解 Delta Lake 提供了什麼特性,還可以理解這些的特性是如何帶來實質性的性能改進的。
什麼是 Delta Lake?
Delta Lake 是一個統一的數據管理系統,為雲上數據湖帶來數據可靠性和快速分析。Delta Lake 運行在現有數據湖之上,並且與 Apache Spark 的 API 完全兼容。
在 Databricks 公司內部,我們看到了 Delta Lake 如何為數據湖帶來可靠性、性能和生命週期管理。我們的客戶已經證明,Delta Lake 解決了以下難題:從複雜的數據格式中提取數據的挑戰、刪除數據以實現法規遵從性的困難、以及為數據捕獲進行修改數據所帶來的問題。
使用 Delta Lake,您可以加快高質量數據導入數據湖的速度,團隊也可以在雲服務上快速使用這些數據,安全且可擴展。
CHAPTER 01 Healthdirect Australia :使用Databricks 提供個性化和安全的在線患者護理
作為國家衛生服務目錄( NHSD )的管理者,Healthdirect 專注於利用 TB 級別的數據,涵蓋時間驅動、基於活動的醫療事務,以改善醫療服務和支持。由於治理需求、各自為政的團隊和難以擴展的遺留系統,他們轉向使用 Databricks 。這促進了下游機器學習的數據處理,同時提高了數據安全性,以滿足HIPAA的要求。
數據質量和治理問題、數據孤島和無法擴展
由於監管壓力,澳大利亞 Healthdirect 公司著手提高整體數據質量,並在此基礎上確保治理水平,但在數據存儲和訪問方面遇到了挑戰。除此之外,數據倉庫阻礙了團隊高效地為下游分析準備數據。這些脫節的數據源影響了數據讀取的一致性,因為數據常常在堆棧中的不同系統之間不同步。低質量的數據也導致更高的錯誤率和處理效率低下等問題。這種支離破碎的架構造成了巨大的操作開銷,限制了他們全面瞭解患者的能力。
此外,由於客戶需求(如預訂、預約、定價、電子健康交易活動等)的不斷變化,他們需要接收超過10億個數據點—估計數據量超過1 TB。
“我們遇到了很多數據挑戰。我們只是處理得不夠有效並且開始出現批量超限。我們開始意識到一個24小時的窗口不是我們希望的能夠提供醫療保健數據的最佳時間和服務”澳大利亞 Healthdirect 公司首席架構師 Peter James 說道。
最終,Healthdirect 公司意識到他們需要實現端到端流程和技術堆棧的革新來正確支持業務。
使用 Databricks 和 Delta Lake 實現現代化分析
Databricks 為澳大利亞 Healthdirect 公司提供了一個統一的數據平臺,簡化了數據工程並加速了數據科學創新。Notebook 環境使他們能夠以可控的方式進行內容更改,而不必每次都運行定製化作業。
“ Databricks 為我們的團隊和數據運營帶來了巨大的性能提升,”詹姆斯說:“分析員直接與數據操作團隊合作。他們能夠在同樣的時間框架內完成同樣的工作,而這一框架過去需要兩倍的時間。他們在一起配合工作,讓我們看到了我們提供服務的速度正在大幅加快。”
通過 Delta Lake,他們創建了邏輯數據區:登陸區、原始區、中轉區和黃金區。在這些區域內,它們以結構化或非結構化狀態將數據“按原樣”存儲在 Delta Lake 表中。在那裡,它們使用元數據驅動的模式,並將數據保存在該表中的嵌套結構中。這使他們能夠始終如一地處理來自每個源的數據,並簡化數據到各種應用程序的映射。
同時,通過結構化流,他們能夠將所有ETL批處理作業轉換為能夠一致地服務於多個應用程序的ETL流處理作業。總的來說,Spark 結構化流媒體、Delta Lake 和 Databricks統一數據平臺的出現提供了顯著的體系結構改進,提高了性能、減少了操作開銷並提高了流程效率。
更快的數據管道帶來更好的以患者為導向的醫療保健
由於 Databricks 帶來的的性能提升和通過 Delta Lake 對數據可靠性的保證,澳大利亞Healthdirect 公司實現了對其模糊名稱匹配算法的精度提高,從人工驗證的不到80%提高到95%而且無需人工干預。
通過 Delta Lake 和結構化流的處理改進,他們每月可以處理3萬多個自動更新。在使用Databricks 之前,他們不得不使用不可靠的批處理作業,這些批處理作業是高度手工化的,以在6個月的時間內處理相同數量的更新——數據處理方面有6倍的改進。
他們還能夠將數據加載速率提高到每分鐘100萬條記錄,在20分鐘內加載完整的2000萬條記錄數據集。在採用 Databricks 之前,處理相同的100萬筆交易需要超過24個小時,這使得分析師無法迅速做出決定來推動業績。
最後,對於滿足遵從性要求至關重要的數據安全性得到了極大的提高。Databricks 提供了像 HIPAA 這樣的標準安全認證,並且 Healthdirect 公司能夠使用 Databricks 來滿足澳大利亞的安全要求。這大大降低了成本,並通過監視訪問權限的更改(如角色的更改、元數據級安全更改、數據洩漏等)為他們提供了持續的數據保證。
“Databricks 為我們提供了上市時間,以及我們所需要的分析和運營提升,以便能夠滿足醫療保健行業的新需求。”James 說道。
在 Databricks 的幫助下,他們已經證明了數據和分析的價值,以及它如何影響他們的業務願景。通過透明地訪問擁有良好記錄的譜系和質量的數據,,各種業務和分析師團隊的參與度有所增加——使團隊能夠協作,更輕鬆、更快速地從數據中提取價值,以改善每個人的醫療保健。
CHAPTER 02 Comcast:使用 Delta Lake 和 MLflow 改變觀眾體驗
作為一家全球技術和媒體公司,Comcast 公司為數百萬客戶提供個性化體驗,但由於數據量大、數據管道脆弱、數據科學協作不力,該公司一直在苦苦掙扎。藉助Databricks —— 利用 Delta Lake 和 MLflow ——他們可以為 pb 級數據構建性能數據管道,並輕鬆管理數百個模型的生命週期,使用語音識別和機器學習創建一個高度創新、獨特和備受讚譽的觀眾體驗。
基礎設施無法支持數據和 ML 需求
實時響應客戶對特定程序的語音請求,同時將數十億次個人互動轉化為可操作的洞察力,這讓 Comcast 的 IT 基礎設施、數據分析和數據科學團隊感到緊張。讓事情變得更復雜的是,Comcast 公司需要將模型部署到一個脫節且完全不同的環境中:雲計算、內部部署甚至在某些情況下直接部署到設備上。
• Massive data : 娛樂系統產生的數十億事件和2000多萬個語音遙控器,導致需要對PB 級別的數據進行會話分析。
• Fragile pipelines : 複雜的數據管道經常失敗,難以恢復。減緩下游機器學習的數據攝取。
• Poor collaboration : 使用不同腳本語言工作的全球分散的數據科學家難以共享和重用代碼。
• Manage management of ML models : 開發、培訓和部署數百個模型是高度手工的、緩慢的、難以複製的,這使其難以擴展。
• Friction between dev and deployment : 開發團隊希望使用最新的工具和模型,而運營團隊希望部署在經過驗證的基礎設施上。
Delta Lake 的自動化基礎設施、更快的數據管道
Comcast 公司意識到他們需要使整個分析方法現代化,從數據吸收到機器學習模型的部署,再到提供使客戶滿意的新功能。如今,Databricks 統一數據平臺使 Comcast 公司能夠構建豐富的數據集,並大規模優化機器學習,簡化團隊間的工作流程,促進協作,減少基礎設施的複雜性,並提供優越的客戶體驗。
• Simplified infrastructure management : 通過自動化集群管理和成本管理特性(如自動伸縮和現場實例)降低了運營成本。
• Performant data pipelines : Delta Lake 用於視頻、語音應用程序和設備的原始遙測數據獲取、數據充實和初始處理。
• Reliably manage small files : Delta Lake 使他們能夠優化文件,以快速和可靠的大規模攝入。
• Collaborative workspaces : 交互式 Notebook 改進了跨團隊協作和數據科學創造力,允許 Comcast 公司大大加快模型原型的更快迭代。
• Simplified ML lifecycle : 託管 MLflow 通過 Kubeflow 環境簡化了機器學習生命週期和模型服務,允許他們輕鬆地跟蹤和管理數百個模型。
• Reliable ETL at scale : Delta Lake 提供了高效的大規模分析管道,可以可靠地連接歷史數據和流數據,從而獲得更豐富的見解。
用 ML 提供個性化的體驗
在競爭激烈的娛樂業,沒有時間按下暫停鍵。有了統一的分析方法,Comcast 公司現在可以快速進入人工智能娛樂的未來——讓觀眾沉浸其中,並、他們為擊敗競爭對手的客戶體驗感到高興。
•Emmy-winning viewer experience : Databricks 幫助 Comcast 公司通過提高用戶參與度的智能語音命令,創造出高度創新、備受讚譽的觀看體驗。
•Reducedcomputecostsby10x : Delta Lake 使 Comcast 公司能夠優化數據攝取,將640臺機器替換為64臺,同時提高性能。團隊可以在分析上花更多的時間,在基礎設施管理上花更少的時間。
•Less DevOps : 將200個用戶所需的 DevOps 全職員工數量從5個減少到0.5個。
•Higher data science productivity : 促進全球數據科學家之間的協作,使不同的編程語言通過一個單獨的交互式工作空間。此外,Delta Lake 還使數據團隊能夠在數據管道中的任何位置使用數據,使他們能夠更快地建立和訓練新模型。
•Faster model deployment : 將部署時間從幾周減少到幾分鐘,因為運營團隊將模型部署在不同的平臺上。
CHAPTER 03 Viacom18: 從 Hadoop 遷移到Databricks,以提供更多吸引人的體驗
Viacom18 Media Pvt. Ltd. 是印度增長最快的娛樂網絡之一,過去10年增長了40倍。他們每月為6億多觀眾提供多平臺、多代、多文化的品牌體驗。
為了給他們數以百萬計的觀眾提供更有吸引力的體驗,Viacom18 從他們的 Hadoop 環境遷移過來,因為它無法有效地大規模處理數據。通過使用 Databricks,他們簡化了基礎設施管理,提高了數據管道速度,並提高了數據團隊的工作效率。
今天,Viacom18 能夠向訂閱者提供更多相關的觀看體驗,同時洞察到優化業務和提高投資回報率的機會。
訂閱者和 TB 級查看數據的增長將 Hadoop 推向極限
Viacom18 是 Network18 和 ViacomCBS 的合資企業,專注於為其觀眾提供高度個性化的觀看體驗。 該戰略的核心需要實施一個企業數據架構,該架構能夠對日常查看者數據進行強大的客戶分析。但由於印度各地有數百萬消費者,數據量的問題很難解決:他們的任務是每天在 VOOT (維亞康姆18的點播視頻訂閱平臺)上接收和處理超過45000小時的內容,每天輕鬆生成700GB 到1TB 的數據。
Viacom18 的數據湖利用本地 Hadoop 進行運行,無法在其管理層定義的 SLA 內以最佳方式處理90天的滾動數據,這限制了他們滿足分析需求的能力,這不僅影響了客戶體驗,還提高了整體成本。
為了正面應對這一挑戰,Viacom18 需要一個現代數據倉庫,能夠分析更長的一段時間內的數據趨勢,而不是每天的快照。他們還需要一個平臺,通過允許他們的團隊輕鬆地為集群提供自動伸縮等功能來幫助降低計算成本,從而簡化基礎設施。
使用 databricks 用於分析和 ML 的快速數據處理
為了實現他們所需的處理能力和數據科學能力,Viacom18 與 Celebal Technologies 合作,Celebal Technologies 是一家總部位於印度的一流銷售、數據分析和大數據諮詢機構。Celebal 的團隊利用 Azure Databricks為Viacom18 提供一個統一的數據平臺,使其數據倉庫功能現代化,並加速大規模的數據處理。
在 Delta Lake 中緩存數據的能力導致了急需的查詢加速功能,而具有自動擴展和存儲與計算分離的集群管理簡化了 Viacom18 的基礎設施管理並優化了運營成本。 “ Delta Lake 創建了一種簡化的數據管道管理方法,”Dey 解釋說。 “這導致運營成本降低,同時加快了下游分析和數據科學的洞察時間。”
對於 Viacom18 來說,Notebook 功能是一個意外的收穫,因為一個通用的工作空間為數據團隊提供了一種協作的方式,並通過 PowerBI 提高了從模型培訓到臨時分析、儀表板和報告等各個方面的工作效率。
利用觀眾數據支持個性化觀看體驗
Celebal Technologies 和 Databricks 使 Viacom18 能夠提供創新的客戶解決方案和見解,提高跨團隊協作能力和生產力。使用 Databricks, Viacom18 的數據團隊現在可以無縫地瀏覽數據,同時更好地為客戶服務。
Dey 表示:“通過 Databricks,Viacom18 的工程師現在可以對大量數據進行切片,向分析師和數據科學家提供客戶行為和用戶參與方面的見解。
除了性能提高外,更快的查詢時間也降低了總體擁有成本,即使數據量每天都在增加。Dey總結道:“Azure Databricks 極大地簡化了流程,並將生產率提高了26%。”
總的來說,Dey 認為從 Hadoop 到 Databricks 的遷移已經帶來了巨大的商業價值——降低故障成本,加快處理速度規模,並簡化臨時分析以更輕鬆地進行數據探索和創新提供極具吸引力的客戶體驗。
後續
您已經瞭解了 Delta Lake 及其如何進行性能優化,本系列還包括其他內容:
- Delta Lake 技術系列-基礎和性能
- Delta Lake 技術系列-特性
- Delta Lake 技術系列-湖倉一體
- Delta Lake 技術系列-流式計算
獲取更詳細的 Databricks 數據洞察相關信息,可至產品詳情頁查看:
https://www.aliyun.com/product/bigdata/spark
阿里巴巴開源大數據技術團隊成立 Apache Spark 中國技術社區,定期推送精彩案例,技術專家直播,只為營造純粹的 Spark 氛圍,歡迎關注公眾號!
掃描下方二維碼入 Databricks 數據洞察產品交流釘釘群一起參與交流討論!