開發與維運

DataHub使用指南

快速入門教程

1.開通DataHub

​ 使用DataHub的第一步,首先點擊開通DataHub

2.創建Project和 Topic

  • 具體創建方式參考文檔:https://help.aliyun.com/document_detail/158785.html?spm=a2c4g.11186623.6.556.796958e1yVcaLO
  • 創建Topic方式解讀,Tuple還是Blob?

    • Tuple支持的是強Schema的結構化數據,Blob指的是沒有類型的非結構化數據,在實際中Blob就是隻有一列為string類型的schema
    • 值得注意的是:使用Blob類型topic的話,數據會採用Base64加密,無論是抽樣還是下游消費,都需要進行解密
    • Schema設計

DataHub目前只支持字段的新增,不支持刪除和修改,針對上游數據源字段經常發生變動的場景,建議設置允許字段為空,如果上游字段變更的話,針對多出來的字段可以通過SDK新增字段,而對於減少的字段則由於允許為空,值將會置為NULL,不會對業務造成影響
  • shard 和生命週期設置

    • shard在DataHub中代表的是併發通道,每個shard每秒吞吐限制為5M/s,每個shardQPS(每秒請求數)為2000次,您可根據這兩項指標合理設置shard個數
    • 針對生命週期而言,可以根據業務需要設置,如果需要更改的話,可以使用Java SDK修改生命週期

3.上游的選擇

DataHub目前支持的數據採集插件

  • OGG

    • OGG for MySQL
    • OGG for Oracle
  • LogStash
  • Flume
  • Canal插件
  • Fluentd

https://help.aliyun.com/document_detail/158836.html?spm=a2c4g.11186623.6.588.5e65710b7RMCns
通過SDK自定義寫入DataHub

注意:

https://help.aliyun.com/document_detail/158841.html?spm=a2c4g.11186623.6.599.28c21333xe8wPo
https://help.aliyun.com/document_detail/158834.html?spm=a2c4g.11186623.6.583.2db4710bEEOlFZ
兼容Kafka

https://help.aliyun.com/document_detail/168118.html?spm=a2c4g.11186623.6.586.6aec6bdbCi1ElZ
DTS數據同步
從PolarDB MySQL同步至Datahub
從DRDS同步至DataHub
DataHub目前的上游生態就是這樣了

4.指標查看 or數據抽樣

​ 在將數據寫入到DataHub之後,DataHub提供了可視化指標來查看內部情況,具體詳情請查看

指標查看metric詳情最新.png

​ 用戶如何查看數據質量,寫入是否正確?可以通過Web抽樣功能來查看數據

5.訂閱

​ 什麼是訂閱?

  • 訂閱最主要的功能就是存儲消費點位,以及通過點位重置重新消費
  • 用戶可創建不同的訂閱針對同一個Topic數據的不同消費模式
  • 創建同步自動會創建對應的訂閱

創建訂閱,刪除訂閱請查看文檔:https://help.aliyun.com/document_detail/158833.html?spm=a2c4g.11174283.6.584.78d763ef5KNv0Y

6.同步數據到下游

​ 消費DataHub數據有兩種方式,通過DataHub支持的同步數據庫同步到下游,或者通過自定義SDK消費數據進行處理

DataHub支持的同步類型:

  • Hologres
  • Maxcompute
  • ADS
  • ElasticSearch
  • 函數計算
  • OSS
  • TableStore
  • RDS/MySQL/ADS 3.0

自定義SDK消費

​ 您可以使用SDK對DataHub數據進行消費

​ 同時DataHub協同消費解決多個消費者同時消費一個topic時,自動分配shard的問題,您也可以選擇使用協同消費對DataHub數據進行處理

​ 同步往往是出現問題最多的,請參考  DataHub同步問題

7.監控報警

​ 在同步數據過程中,DataHub支持了監控報警,目前只有訂閱延遲報警這一項,您可以通過創建報警規則方式對DataHub同步到下游數據進行監控,當超過延遲時間閾值時,會通過釘釘、短信等多種方式提醒您。

​ 具體報警說明請查看文檔:監控報警

8 總結

本文通過對DataHub的創建使用,上游數據源的選擇,同步到DataHub的指標查看,以及下游類型的說明,闡述了DataHub做為數據通道的概念模型以及實際的落地場景,如有更多使用疑問,請加DataHub公共雲群組進行反饋

Leave a Reply

Your email address will not be published. Required fields are marked *