大數據

淺談大數據平臺架構

                           什麼是大數據平臺

有三個疑問:

1.使用Cloudera或Hortonworks之類的Hadoop發行版本公司的提供的Hadoop套件,配置些參數,找幾臺服務器部署起來就算是一套大數據平臺嗎?

2.數據開發人員平時的工作是不是寫些MR或者SQL任務,使用原生的命令行提交任務就可以了嗎?

3.平臺開發人員日常的工作是不是處理下集群的故障,給業務方掃盲,糾正各種框架組件使用姿勢呢?

大數據平臺個人理解:

是基於開源或自研組件的基礎上創造更多的附件價值,提供給用戶一個
完整的大數據業務解決方案,而不僅僅是做一個集群的維護者

                            大數據平臺的價值
                            

1.數據開發角度
一.降低數據開發門檻
二.提升數據開發人員效率

2.運維角度
一.降低運維門檻
二.提升運維效率

3.公司角度
一.數據統一管理(OneData理念),降低成本

                           大數據平臺架構選型

                         

_

離線計算:

1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL

離線數據同步:

1.DataX(Alibaba,開源支持單機版本)

  1. FlinkX(Dtstack,開源支持單機,standalone,yarn 模式)
  2. Sqoop(只能做Hadoop和關係型數據庫之間的數據同步)
  3. Kettle

實時計算:

1.Flink
2.SparkStreaming

  1. Storm
  2. JStorm(Alibaba)
  3. StreamCQL(華為)

實時數據同步:

1.Flume

  1. Logstash(Elastic)
  2. JLogstash(Dtstack)

多維分析(即席查詢):

1.Kylin

  1. SparkSQL+CarbonData
  2. Impala+Kudu 或Parquet

機器學習:

1.Spark MLib

  1. Flink MLib
  2. XGBoost

深度學習:

1.TensorFlow

  1. Caffe
  2. Keras
  3. Keras

資源管理器:

1.Yarn

  1. Mesos
  2. Kubernetes+Docker

集群管理:

1.Cloudera
2.星環

  1. Hortonworks
  2. Ambari

Leave a Reply

Your email address will not be published. Required fields are marked *