開發與維運

Flink Weekly 每週動態更新-2020/03/25

大家好,本文為 Flink Weekly 的第十期,由張成(Ace)整理,主要內容包括:近期社區開發進展,郵件問題答疑以及 Flink 最新社區動態及技術文章推薦。

社區開發進展

■ [release] 關於發佈 Flink 1.10.1 的討論正在火熱進行,最新消息請參考 Yu Li 發起的討論。
[1]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Releasing-Flink-1-10-1-td38689.html

■ [Checkpoint] Arvid Heise 發起 FLIP-76 的投票已經通過。FLIP-76 提出了一種基於檢查點屏障的非阻塞對齊執行檢查點的方法。相關好處有:

  1. 即使某些 Operator 仍在等待正在輸入通道上的檢查點屏障,上游仍可以繼續產生數據。
  2. 即使對於具有單個輸入通道的 Operator,在整個執行圖中的檢查點次數也大大減少。
  3. 即使在不穩定的環境中,最終用戶也將看到更多的進展,因為更及時的檢查點將避免過多的重複計算。
  4. 促進更快地 rescaling。

更多信息參考:
[2]https://cwiki.apache.org/confluence/display/FLINK/FLIP-76%3A+Unaligned+Checkpoints
[3]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-76-Unaligned-checkpoints-td33651.html

■ [Connectors/Filesystem] 刪除 BucketingSink。BucketingSink 已經在 Flink 1.9 版本標記為過期。Flink 有一個新的 StreamingFileSink 替代 BucketingSink。目前 StreamingFileSink 的 scala 版本存在 bug。

[4]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16616-Drop-BucketingSink-td38950.html
[5]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Drop-Bucketing-Sink-td38830.html#a38831
[6]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16684-StreamingFileSink-builder-does-not-work-with-Scala-td39109.html

■ [Table API & SQL] Jingsong Li 發起了引入 StatefulSequenceSource 的討論。這個能夠方便用戶更好的進行測試 SQL。最終討論決定在 Table 支持 DataGenerator 的 source、Print 的 sink 和blackhole 的 sink。

[7]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-TableFactory-for-StatefulSequenceSource-td39116.html

■ [sql] Timo 分享了一個關於新的 TableSource 和 TableSink 接口的提案(FLIP-95)。Jark、Dawid、Aljoscha、Kurt、Jingsong 等參考了討論。其目標是簡化當前的接口架構,以支持變更日誌源(FLIP-105)和刪除對 DataStream API 和 planner 的依賴。

[8]https://cwiki.apache.org/confluence/display/FLINK/FLIP-95%3A+New+TableSource+and+TableSink+interfaces

■ [hadoop]跟進 Stephan 和 Till 的討論。Sivaprasanna 分享了 Hadoop 相關實用程序組件的概述,以開始討論將其移動到單獨的模塊中 “flink-hadoop-utils”。

[9]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/SerializableHadoopConfiguration-td38371.html
[10]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-a-new-module-flink-hadoop-utils-td39107.html

用戶問題

■ 葉賢勳在使用 Hive Source 的時候遇到了 Kerberos 認證的問題,社區同學進行了相關的討論和建議,感興趣的同學可以參考如下鏈接:
[11]http://apache-flink.147419.n8.nabble.com/Hive-Source-With-Kerberos-td1688.html

■ hiliuxg 在社區提問 Flink SQL 如何支持每隔 5 分鐘觸發當日零點到當前 5 分鐘的聚合計算。Jark Wu 和 Tianwang Li 進行了相關解答。
[12]http://apache-flink.147419.n8.nabble.com/flink-sql-5-5-td2011.html

■ hiliuxg 在社區提問 Flink SQL COUNT DISTINCT 性能優化。Benchao Li、田志聲、Lucas Wu、Lake Shen 展開了一些討論,有興趣的同學可以參考如下鏈接:

[13]http://apache-flink.147419.n8.nabble.com/flink-sql-td2012.html

■ 王志華 在社區提問 Flink DDL 如何支持自定義 Source/Sink 表。社區同學在郵件中進行了詳細的回答。
[14]http://apache-flink.147419.n8.nabble.com/ddl-td1959.html

■ 111 在社區提問 Flink SQL1.10 大表 join 如何優化?Jark Wu、Kurt Young 和 Jingsong Lee 進行了詳細的解答。目前 Flink SQL 的並行度(非 Source )並不是自動推斷出來的,需要通過設置table.exec.resource.default-parallelism,詳細的內容參考:

[15]http://apache-flink.147419.n8.nabble.com/Flink-SQL1-10-join-td2044.html
[16]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-SQL-How-can-i-set-parallelism-in-clause-of-group-by-td33736.html

■ Aaron Levin 在社區提問 如何能夠做到修改任務的併發,然後從 checkpoint 啟動任務。Piotr Nowojski、Till Rohrmann 參與了相關討論。內容涉及到 unaligned checkpoints (FLIP-76) 對savepoint 和 checkpoint 的影響。同時 Lake Shen 也提出了類似的問題。有興趣的同學可以參考:

[17]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Expected-behaviour-when-changing-operator-parallelism-but-starting-from-an-incremental-checkpoint-td33608.html
[18]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Cancel-the-flink-task-and-restore-from-checkpoint-can-I-change-the-flink-operator-s-parallelism-td33613.html

■ Jiawei Wu 在社區提問“如何使用 Flink SQL 計算 按照供應商分組同時入庫時間大於 15 天的庫存數據?”,有興趣的同學可以參考:
[19]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Use-flink-to-calculate-sum-of-the-inventory-under-certain-conditions-td33323.html

■ Vinod Mehra 在社區提出了一個關於 Join 相關的問題。這個問題比較複雜,Timo Walther 進行了相關解答。裡面涉及到了一些如何進行 Flink SQL 問題的排查。有興趣的同學可以參考:

[20]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/time-windowed-joins-and-tumbling-windows-td33551.html

活動博客文章及其他

■ SQL 開發任務超 50% !滴滴實時計算的演進與優化

[21]https://ververica.cn/corporate_practice/evolution-and-optimization-of-didi-real-time-computing/

■ Flink 生態:一個案例快速上手 PyFlink
[22]https://ververica.cn/developers/pyflink-a-case-in-hand/

■ 一套 SQL 搞定數據倉庫?Flink有了新嘗試[23]https://ververica.cn/developers/a-set-of-sql-to-handle-data-warehouse/

■ 如何在 Flink 中規劃 RocksDB 內存容量?
[24]https://ververica.cn/developers/how-to-plan-the-memory-capacity-of-rocksdb-in-flink/

2 分鐘快速訂閱 Flink 中文郵件列表

Apache Flink 中文郵件列表訂閱流程:

  1. 發送任意郵件到 [email protected]
  2. 收到官方確認郵件
  3. 回覆該郵件 confirm 即可訂閱

訂閱成功後將收到 Flink 官方的中文郵件列表的消息,您可以向 [email protected] 發郵件提問也可以幫助別人解答問題,動動手測試一下!

Flink Weekly 作者徵集

Flink Weekly 是由社區同學發起的並持續更新的 Flink 社區每週動態彙總,內容涵蓋郵件列表中用戶問題的解答、社區開發和提議的進展、社區新聞以及其他活動、博客文章等,發佈於 Apache Flink 中文郵件列表、Flink 中文社區官方微信公眾號及各大社區專欄。

  1. 如果你也想積極參與社區,掌握社區最新動態
  2. 獲得 Apache Flink PMC 及 Committer 對技術文章寫作的指導
  3. 與社區深度參與者們交流
  4. 擁有更多曝光的平臺與機會

歡迎報名 Flink Weekly 作者!眾所周知,Flink 學的好,女朋友容易找,Flink 學成,頭髮茂!點擊“閱讀原文”填寫信息即可加入小松鼠大家庭~

作者介紹:

張成,小紅書技術部基礎平臺開發工程師,目前主要在做基於 Flink 的實時計算平臺開發。

Leave a Reply

Your email address will not be published. Required fields are marked *