快速入門教程

1.開通DataHub

使用DataHub的第一步，首先點擊開通DataHub

具體創建方式參考文檔:https://help.aliyun.com/document_detail/158785.html?spm=a2c4g.11186623.6.556.796958e1yVcaLO
創建Topic方式解讀，Tuple還是Blob?
- Tuple支持的是強Schema的結構化數據,Blob指的是沒有類型的非結構化數據，在實際中Blob就是隻有一列為string類型的schema
- 值得注意的是:使用Blob類型topic的話，數據會採用Base64加密，無論是抽樣還是下游消費，都需要進行解密
- Schema設計

DataHub目前只支持字段的新增，不支持刪除和修改，針對上游數據源字段經常發生變動的場景，建議設置允許字段為空，如果上游字段變更的話，針對多出來的字段可以通過SDK新增字段，而對於減少的字段則由於允許為空，值將會置為NULL，不會對業務造成影響

shard 和生命週期設置
- shard在DataHub中代表的是併發通道，每個shard每秒吞吐限制為5M/s,每個shardQPS(每秒請求數)為2000次，您可根據這兩項指標合理設置shard個數
- 針對生命週期而言，可以根據業務需要設置，如果需要更改的話，可以使用Java SDK修改生命週期

DataHub目前支持的數據採集插件

注意：

在將數據寫入到DataHub之後，DataHub提供了可視化指標來查看內部情況，具體詳情請查看

用戶如何查看數據質量，寫入是否正確？可以通過Web抽樣功能來查看數據

什麼是訂閱？

消費DataHub數據有兩種方式，通過DataHub支持的同步數據庫同步到下游，或者通過自定義SDK消費數據進行處理

DataHub支持的同步類型：

自定義SDK消費

您可以使用SDK對DataHub數據進行消費

同時DataHub協同消費解決多個消費者同時消費一個topic時，自動分配shard的問題，您也可以選擇使用協同消費對DataHub數據進行處理

同步往往是出現問題最多的，請參考 DataHub同步問題

在同步數據過程中，DataHub支持了監控報警，目前只有訂閱延遲報警這一項，您可以通過創建報警規則方式對DataHub同步到下游數據進行監控，當超過延遲時間閾值時，會通過釘釘、短信等多種方式提醒您。

具體報警說明請查看文檔:監控報警

本文通過對DataHub的創建使用，上游數據源的選擇，同步到DataHub的指標查看，以及下游類型的說明，闡述了DataHub做為數據通道的概念模型以及實際的落地場景，如有更多使用疑問，請加DataHub公共雲群組進行反饋