大數據

性能高1倍,價格低3/4!數據庫實時同步新選擇!

2020年雙11,雲原生實時數倉首次在阿里巴巴雙11核心數據場景落地,實現商業全鏈路實時化,毫秒級海量數據處理能力。搜索推薦業務數據開發效率提升4倍,菜鳥物流包裹數據鏈路從小時級優化到3分鐘,考拉分鐘及小時業務1分鐘內完成,實時數據倉庫的建設在瞬息萬變的市場競爭中成為了標品!
DataWorks獨享數據集成資源組(支持實時同步)首月5折>>

實時同步-實時數倉第一步

實時數倉的建設,第一步就需要將數據同步到大數據計算引擎,一般客戶的RDS/MySQL業務數據庫在實際生產中都是實時不停的進行著數據變化,如何及時將這些數據同步到數據倉庫中是一個難題,同時實際上,只有極少數客戶的RDS業務數據庫是全新建立的,對接數據倉庫時只需要進行實時同步。他們大多數都有歷史既有的數據,只有在這些數據上雲之後的實時數據變更才有業務意義。

傳統實時同步方式的困難點

傳統的實現方式是客戶先手工建立離線全量數據同步任務,並進行完成歷史全量數據的搬遷。此後再進行手工建立實時同步任務。但是一般客戶都是有非常多的數據庫,每個庫中有非常多的表,對這些表逐個建立離線和實時同步任務,是一個很繁瑣和容易出錯遺漏的過程。同時實時同步任務啟動的時機也難以把握,尤其是對於沒有關鍵字段做主鍵去重時,提前啟動容易造成數據重複,滯後啟動容易造成數據遺漏。

DataWorks數據集成實時同步高效解決方案

DataWorks數據集成提供了 “RDS/MySQL一鍵實時同步至MaxCompute” 的解決方案,可以將RDS/MySQL中的數據庫,通過一次性的簡單配置,全增量一體化同步到MaxCompute中,自動實現先全量數據遷移,然後實時增量保持更新。並支持對於實時同步到MaxCompute的數據,按照指定分區自動建立和Base表的merge任務並執行。整套流程完全自動化,無需人工干預,用戶只需關注最終的業務結果表即可。

實時同步性能與性價比

DataWorks數據集成採用自研高性能引擎,在相同的機器規格情況下,RDS實時同步性能最高為 其他數據同步方案的2倍 ,而 價格只有其4分之1 。以一臺24核48G內存的機器舉例,DataWorks數據集成RDS實時同步最大QPS為3.5萬,比其他數據同步方案 QPS高1倍 ,可以運行18條實時同步鏈路,而這個規格的機器,每月僅需3000元(以杭州的為例)。
詳見: 《獨享數據集成資源組性能和計費標準》

實時同步功能優勢

  • 針對RDS/MySQL可以整庫全部表或者部分表、批量的大規模導入MaxCompute與Hologres
  • 歷史存量數據自動化全量導入,目的MaxCompute、Hologres表可以自動建立,也可以使用已有,支持精細化配置。
  • 實時最新數據在全量同步後自動啟動導入,保證數據既不重複也不丟失。
  • 白屏化簡單配置整個方案,輕鬆幾步嚮導即可完成。
  • 支持整個方案級別的運維管控,更高level來操盤,避免繁瑣的底層運維。

操作步驟

Leave a Reply

Your email address will not be published. Required fields are marked *