快速入門教程
1.開通DataHub
使用DataHub的第一步,首先點擊開通DataHub
2.創建Project和 Topic
- 具體創建方式參考文檔:https://help.aliyun.com/document_detail/158785.html?spm=a2c4g.11186623.6.556.796958e1yVcaLO
-
創建Topic方式解讀,Tuple還是Blob?
- Tuple支持的是強Schema的結構化數據,Blob指的是沒有類型的非結構化數據,在實際中Blob就是隻有一列為string類型的schema
- 值得注意的是:使用Blob類型topic的話,數據會採用Base64加密,無論是抽樣還是下游消費,都需要進行解密
- Schema設計
DataHub目前只支持字段的新增,不支持刪除和修改,針對上游數據源字段經常發生變動的場景,建議設置允許字段為空,如果上游字段變更的話,針對多出來的字段可以通過SDK新增字段,而對於減少的字段則由於允許為空,值將會置為NULL,不會對業務造成影響
-
shard 和生命週期設置
3.上游的選擇
DataHub目前支持的數據採集插件
-
OGG
- OGG for MySQL
- OGG for Oracle
- LogStash
- Flume
- Canal插件
- Fluentd
https://help.aliyun.com/document_detail/158836.html?spm=a2c4g.11186623.6.588.5e65710b7RMCns
通過SDK自定義寫入DataHub
注意:
https://help.aliyun.com/document_detail/158841.html?spm=a2c4g.11186623.6.599.28c21333xe8wPo
https://help.aliyun.com/document_detail/158834.html?spm=a2c4g.11186623.6.583.2db4710bEEOlFZ
兼容Kafka
https://help.aliyun.com/document_detail/168118.html?spm=a2c4g.11186623.6.586.6aec6bdbCi1ElZ
DTS數據同步
從PolarDB MySQL同步至Datahub
從DRDS同步至DataHub
DataHub目前的上游生態就是這樣了
4.指標查看 or數據抽樣
在將數據寫入到DataHub之後,DataHub提供了可視化指標來查看內部情況,具體詳情請查看
指標查看
用戶如何查看數據質量,寫入是否正確?可以通過Web抽樣功能來查看數據
5.訂閱
什麼是訂閱?
- 訂閱最主要的功能就是存儲消費點位,以及通過點位重置重新消費
- 用戶可創建不同的訂閱針對同一個Topic數據的不同消費模式
- 創建同步自動會創建對應的訂閱
創建訂閱,刪除訂閱請查看文檔:https://help.aliyun.com/document_detail/158833.html?spm=a2c4g.11174283.6.584.78d763ef5KNv0Y
6.同步數據到下游
消費DataHub數據有兩種方式,通過DataHub支持的同步數據庫同步到下游,或者通過自定義SDK消費數據進行處理
DataHub支持的同步類型:
- Hologres
- Maxcompute
- ADS
- ElasticSearch
- 函數計算
- OSS
- TableStore
- RDS/MySQL/ADS 3.0
自定義SDK消費
您可以使用SDK對DataHub數據進行消費
同時DataHub協同消費解決多個消費者同時消費一個topic時,自動分配shard的問題,您也可以選擇使用協同消費對DataHub數據進行處理
同步往往是出現問題最多的,請參考 DataHub同步問題
7.監控報警
在同步數據過程中,DataHub支持了監控報警,目前只有訂閱延遲報警這一項,您可以通過創建報警規則方式對DataHub同步到下游數據進行監控,當超過延遲時間閾值時,會通過釘釘、短信等多種方式提醒您。
具體報警說明請查看文檔:監控報警
8 總結
本文通過對DataHub的創建使用,上游數據源的選擇,同步到DataHub的指標查看,以及下游類型的說明,闡述了DataHub做為數據通道的概念模型以及實際的落地場景,如有更多使用疑問,請加DataHub公共雲群組進行反饋