作者:明譽
大數據是一項涉及不同業務和技術領域的技術和工具的集合,海量離線數據分析可以應用於多種商業系統環境,例如,電商海量日誌分析、用戶行為畫像分析、科研行業的海量離線計算分析任務等場景。
離線大數據分析概述
主流的三大分佈式計算框架系統分別為Hadoop、Spark和Storm:
- Hadoop可以運用在很多商業應用系統,可以輕鬆集成結構化、半結構化以及非結構化數據集。
- Spark採用了內存計算,允許數據載入內存作反覆查詢,融合數據倉庫、流處理和圖形計算等多種計算範式,能夠與Hadoop很好地結合。
- Storm適用於處理高速、大型數據流的分佈式實時計算,為Hadoop添加可靠的實時數據處理能力。
海量離線數據分析可以應用於多種場景,例如:
- 商業系統環境:電商海量日誌分析、用戶行為畫像分析。
- 科研行業:海量離線計算分析和數據查詢。
- 遊戲行業:遊戲日誌分析、用戶行為分析。
- 商業用戶:數據倉庫解決方案的BI分析、多維分析報表。
- 大型企業:海量IT運維日誌分析。
架構圖
方案優勢
- 高性能、低成本
- 快速部署
- 彈性
- 多種計算模式
- 無縫對接開源生態
- 一站式管理平臺
方案詳情
詳情請參見E-MapReduce彈性低成本離線大數據分析最佳實踐
對開源大數據感興趣的同學可以加小編微信(圖一二維碼,備註進群)進入技術交流微信2群。也可釘釘掃碼加入社區的釘釘群
阿里巴巴開源大數據技術團隊成立Apache Spark中國技術社區,定期推送精彩案例,技術專家直播,問答區數個Spark技術同學每日在線答疑,只為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!
Apache Spark技術交流社區公眾號,微信掃一掃關注