大數據

一鍵同步Elasticsearch,DataWorks數據集成同步解決方案上線!

企業的實時數據除了存儲在大數據引擎中,還有很多非結構化的日誌數據,通過阿里雲的Elasticsearch,用全託管的方式提供低成本的冷熱存儲方案,輕鬆助力企業搭建統一的雲上全觀測運維監控平臺,實現海量數據的實時監控分析,提高自動化運維管理效率。DataWorks數據集成提供了 “MySQL一鍵同步至Elasticsearch” 的解決方案,可以將MySQL中的數據庫,通過一次性的簡單配置,全增量一體化同步到Elasticsearch。DataWorks數據集成採用自研高性能引擎,在相同的機器規格情況下,同步性能更高,價格更優惠!

目前獨享數據集成資源組首月5折!立即前往購買>>

方案簡介

本方案是整庫全增量離線同步至Elasticsearch,目前支持的源數據庫類型為MySQL,後續更多類型持續增加中。在DataWorks數據集成界面“同步解決方案”下,單擊“整庫離線同步至Elasticsearch”新建同步任務,再通過完成“設置同步來源和規則”、“設置目標索引”、“同步規則設置”、“運行資源設置”這樣4步簡單的產品化配置,就可以將指定類型的數據庫中全部表或者部分表的數據離線同步到Elasticsearch裡。

適用場景

業務庫數據全量或者增量搬遷到Elasticsearch中做數據檢索分析或者後續數據開發。

優勢特點

整庫級別同步:

  • 不需要一個個建立表到表的同步,支持以庫為單位,選擇其中所有表或者部分表進行同步

多種同步方式:

  • 支持全量、增量以及全量和增量結合的方式,同時支持週期性調度設置

配置簡單:

  • 避開紛繁複雜的同步任務、建庫建表、相互依賴、參數對齊等操作,只需簡單的產品化的功能配置。

操作步驟

創建同步解決方案任務

1.登錄並進入數據集成頁面,“同步解決方案”下,單擊“整庫離線同步至Elasticsearch”新建同步任務。

同步到ES.png

2.完成方案名稱等基本信息配置。在基本配置區域,配置各項參數。

同步到1.png

參數 描述
方案名稱 同步解決方案的名稱,最多支持50個字符。
描述 對當前方案進行簡單描述,最多支持50個字符。
目標任務存放位置 默認創建一個新的業務流程,所有任務均以clone_database_源端數據源名稱+to+目標數據源名稱的命名方式存放至數據集成目錄下。您也可以取消自動建立工作流程,在選擇位置下拉列表中指定存放目標任務的路徑。

選擇來源數據源並配置同步規則

1.在數據來源區域,選擇類型數據源(僅支持選擇MySQ類型的數據源)
2.在選擇同步的源表區域,選中需要同步的源表,單擊 同步到2.png
圖標,將其移動至已選源表

同步到3.png

該區域會為您展示所選數據源下所有的表,您可以選擇整庫全表或部分表進行同步。
注意 如果選中的表沒有主鍵,將無法進行實時同步。

3.在設置同步規則區域,單擊添加規則,選擇相應的規則進行添加。同步規則包括表名轉換規則目標表名規則

  • 表名轉換規則:轉換表名為目標表名,進行字符串替換。
  • 目標表名規則:支持對轉換後的表名添加前綴和後綴。

4.單擊下一步。

選擇目標數據源並配置目標表格式

1.在設置目標索引頁面,選擇目標Elasticsearch數據源
2.單擊刷新源表和Elasticsearch索引映射,創建需要同步的源表和目標Elasticsearch索引的映射關係。
3.查看任務的執行進度和表來源。

同步到4.png

序號 描述
顯示映射關係的創建進度。如果同步的表數量較多,會導致執行進度較慢,請耐心等待。
②③ 如果來源庫有主鍵則會直接使用此主鍵。如果沒有,則會顯示編輯標誌,允許自定義主鍵(支持聯合主鍵)
④ 5 6 選擇的索引建立方式:當索引建立方式選擇自動建索引時,顯示自動創建的Elasticsearch索引名稱。您可以單擊表名稱,修改建索引的配置。當索引建立方式選擇使用已有索引時,請在下拉列表中選擇需要的索引,同時支持查看字段映射(圖上的“設置同步規則”應該為“查看字段映射”)。

4.單擊下一步。

同步規則設置

1.在同步規則設置頁面,配置要同步的方式和參數。

同步到5.png

2.方案選擇:

方案 解釋
全量一次性同步後周期增量 先將源端所有數據全量拉取到Elasticsearch後,再按照指定的過濾條件和重複週期,每次循環將增量數據拉取到Elasticsearch中。
只全量一次性同步 只進行一次同步,將源端所有數據全量拉取到Elasticsearch。
只增量一次性同步 只進行一次同步,按照指定的過濾條件將源端的增量數據拉取到Elasticsearch中。
週期性全量同步 按照指定的重複週期,每次循環都將源端所有數據拉取到Elasticsearch中。
週期性增量同步 按照指定的過濾條件和重複週期,每次循環將增量數據拉取到Elasticsearch中。

運行資源設置

運行資源設置頁面,配置各項參數。目前解決方案僅支持使用獨享數據集成資源組,該資源組可以在DataWorks官網下“單獨產品”購買處點擊購買(注意是“獨享數據集成資源”,不是調度資源),資源組詳情也可參見資源規劃與配置文檔。

同步到6.png

參數 描述
**選擇實時任務獨享資源組** 分別選擇實時任務和全量離線任務需要使用的獨享資源組。目前解決方案僅支持使用獨享數據集成資源組,此處可配置為準備操作中已購買並配置的獨享數據集成資源組,詳情可參見[資源規劃與配置](https://help.aliyun.com/document_detail/195954.html)。
**選擇全量離線任務獨享資源組**
**選擇調度資源組** 選擇運行任務時使用的調度資源組。
**來源端讀取支持最大連接數** 讀取端的最大連接數,即來源端數據庫的JDBC連接數。請根據數據庫資源的實際情況合理配置。
**離線任務名稱規則** 全量同步時的離線任務名稱。創建解決方案後,會先生成一個離線任務用於讀取全量數據,再生成實時任務持續讀取實時增量數據。

單擊完成配置,完成數據同步解決方案任務創建。

查看運行狀態及結果

解決方案任務列表頁面,單擊已運行任務後的執行詳情,查看當前解決方案數據同步過程中各子任務節點的運行詳情。
單擊子任務節點後的執行詳情,可在彈窗中單擊任務鏈接進入子節點的數據開發頁面。

管理數據同步解決方案任務

查看或編輯任務。在解決方案任務列表頁面,單擊相應任務後的任務配置,可以查看或編輯任務。
僅單擊未運行狀態後的任務配置,您可以編輯任務。其它狀態下的任務配置頁面,僅支持查看。

刪除任務:單擊相應任務後的刪除。在刪除對話框中,單擊確定(僅刪除當前任務的配置記錄,已經生成的表和任務不受影響)。

同步到7.png

總結

以上就是本次Elasticsearch同步解決方案的全部內容,數據同步到Elasticsearch之後,您可以很方便地做實時分佈式的搜索與分析,Elasticsearch構建在Elastic Stack開源生態矩陣中,包括Beats(輕量級數據採集工具)、Logstash(收集、過濾、傳輸數據的工具)、Elasticsearch、Kibana(靈活的可視化工具)。您可以很方便地利用豐富的工具快速搭建您的數據檢索或者實時監控運維應用。
如果您對本次方案感興趣的話,可以到Elasticsearch和DataWorks的官網查看具體產品信息:
Elasticsearch產品官網:https://www.aliyun.com/product/bigdata/product/elasticsearch
DataWorks產品官網:https://www.aliyun.com/product/bigdata/ide

Leave a Reply

Your email address will not be published. Required fields are marked *