什麼是大數據平臺
有三個疑問:
1.使用Cloudera或Hortonworks之類的Hadoop發行版本公司的提供的Hadoop套件,配置些參數,找幾臺服務器部署起來就算是一套大數據平臺嗎?
2.數據開發人員平時的工作是不是寫些MR或者SQL任務,使用原生的命令行提交任務就可以了嗎?
3.平臺開發人員日常的工作是不是處理下集群的故障,給業務方掃盲,糾正各種框架組件使用姿勢呢?
大數據平臺個人理解:
是基於開源或自研組件的基礎上創造更多的附件價值,提供給用戶一個
完整的大數據業務解決方案,而不僅僅是做一個集群的維護者
大數據平臺的價值
1.數據開發角度
一.降低數據開發門檻
二.提升數據開發人員效率
2.運維角度
一.降低運維門檻
二.提升運維效率
3.公司角度
一.數據統一管理(OneData理念),降低成本
大數據平臺架構選型
離線計算:
1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL
離線數據同步:
1.DataX(Alibaba,開源支持單機版本)
- FlinkX(Dtstack,開源支持單機,standalone,yarn 模式)
- Sqoop(只能做Hadoop和關係型數據庫之間的數據同步)
- Kettle
實時計算:
1.Flink
2.SparkStreaming
- Storm
- JStorm(Alibaba)
- StreamCQL(華為)
實時數據同步:
1.Flume
- Logstash(Elastic)
- JLogstash(Dtstack)
多維分析(即席查詢):
1.Kylin
- SparkSQL+CarbonData
- Impala+Kudu 或Parquet
機器學習:
1.Spark MLib
- Flink MLib
- XGBoost
深度學習:
1.TensorFlow
- Caffe
- Keras
- Keras
資源管理器:
1.Yarn
- Mesos
- Kubernetes+Docker
集群管理:
1.Cloudera
2.星環
- Hortonworks
- Ambari