大數據

阿里雲 DataWorks數據集成 的開源版本DataX

image.png

DataX

DataX 是阿里雲 DataWorks數據集成 的開源版本,在阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺。DataX 實現了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各種異構數據源之間高效的數據同步功能。

DataX 商業版本

阿里雲DataWorks數據集成是DataX團隊在阿里雲上的商業化產品,致力於提供複雜網絡環境下、豐富的異構數據源之間高速穩定的數據移動能力,以及繁雜業務背景下的數據同步解決方案。目前已經支持雲上近3000家客戶,單日同步數據超過3萬億條。DataWorks數據集成目前支持離線50+種數據源,可以進行整庫遷移、批量上雲、增量同步、分庫分表等各類同步解決方案。2020年更新實時同步能力,2020年更新實時同步能力,支持10+種數據源的讀寫任意組合。提供MySQL,Oracle等多種數據源到阿里雲MaxCompute,Hologres等大數據引擎的一鍵全增量同步解決方案。

商業版本參見: https://www.aliyun.com/product/bigdata/ide

Features

DataX本身作為數據同步框架,將不同數據源的同步抽象為從源頭數據源讀取數據的Reader插件,以及向目標端寫入數據的Writer插件,理論上DataX框架可以支持任意數據源類型的數據同步工作。同時DataX插件體系作為一套生態系統, 每接入一套新數據源該新加入的數據源即可實現和現有的數據源互通。

DataX詳細介紹

請參考:DataX-Introduction

Quick Start

Download DataX下載地址
請點擊:Quick Start

Support Data Channels

DataX目前已經有了比較全面的插件體系,主流的RDBMS數據庫、NOSQL、大數據計算系統都已經接入,目前支持數據如下圖,詳情請點擊:DataX數據源參考指南

類型 數據源 Reader(讀) Writer(寫) 文檔
RDBMS 關係型數據庫 MySQL
            Oracle         √         √    
SQLServer
PostgreSQL
DRDS
通用RDBMS(支持所有關係型數據庫)
阿里雲數倉數據存儲 ODPS
ADS
OSS
OCS
NoSQL數據存儲 OTS
Hbase0.94
Hbase1.1
Phoenix4.x
Phoenix5.x
MongoDB
Hive
Cassandra
無結構化數據存儲 TxtFile
FTP
HDFS
Elasticsearch
時間序列數據庫 OpenTSDB
TSDB

阿里雲DataWorks數據集成

目前DataX的已有能力已經全部融和進阿里雲的數據集成,並且比DataX更加高效、安全,同時數據集成具備DataX不具備的其它高級特性和功能。可以理解為數據集成是DataX的全面升級的商業化用版本,為企業可以提供穩定、可靠、安全的數據傳輸服務。與DataX相比,數據集成主要有以下幾大突出特點:

支持實時同步:

離線同步數據源種類大幅度擴充:

我要開發新的插件

請點擊:DataX插件開發寶典

項目成員

核心Contributions: 言柏 、枕水、秋奇、青礫、一斅、雲時

感謝天燼、光戈、祁然、巴真、靜行對DataX做出的貢獻。

License

This software is free to use under the Apache License Apache license.

請及時提出issue給我們。請前往:DataxIssue

Leave a Reply

Your email address will not be published. Required fields are marked *