大家好,本文為 Flink Weekly 的第十期,由張成(Ace)整理,主要內容包括:近期社區開發進展,郵件問題答疑以及 Flink 最新社區動態及技術文章推薦。
社區開發進展
■ [release] 關於發佈 Flink 1.10.1 的討論正在火熱進行,最新消息請參考 Yu Li 發起的討論。
[1]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Releasing-Flink-1-10-1-td38689.html
■ [Checkpoint] Arvid Heise 發起 FLIP-76 的投票已經通過。FLIP-76 提出了一種基於檢查點屏障的非阻塞對齊執行檢查點的方法。相關好處有:
- 即使某些 Operator 仍在等待正在輸入通道上的檢查點屏障,上游仍可以繼續產生數據。
- 即使對於具有單個輸入通道的 Operator,在整個執行圖中的檢查點次數也大大減少。
- 即使在不穩定的環境中,最終用戶也將看到更多的進展,因為更及時的檢查點將避免過多的重複計算。
- 促進更快地 rescaling。
更多信息參考:
[2]https://cwiki.apache.org/confluence/display/FLINK/FLIP-76%3A+Unaligned+Checkpoints
[3]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-76-Unaligned-checkpoints-td33651.html
■ [Connectors/Filesystem] 刪除 BucketingSink。BucketingSink 已經在 Flink 1.9 版本標記為過期。Flink 有一個新的 StreamingFileSink 替代 BucketingSink。目前 StreamingFileSink 的 scala 版本存在 bug。
[4]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16616-Drop-BucketingSink-td38950.html
[5]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Drop-Bucketing-Sink-td38830.html#a38831
[6]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/jira-Created-FLINK-16684-StreamingFileSink-builder-does-not-work-with-Scala-td39109.html
■ [Table API & SQL] Jingsong Li 發起了引入 StatefulSequenceSource 的討論。這個能夠方便用戶更好的進行測試 SQL。最終討論決定在 Table 支持 DataGenerator 的 source、Print 的 sink 和blackhole 的 sink。
■ [sql] Timo 分享了一個關於新的 TableSource 和 TableSink 接口的提案(FLIP-95)。Jark、Dawid、Aljoscha、Kurt、Jingsong 等參考了討論。其目標是簡化當前的接口架構,以支持變更日誌源(FLIP-105)和刪除對 DataStream API 和 planner 的依賴。
■ [hadoop]跟進 Stephan 和 Till 的討論。Sivaprasanna 分享了 Hadoop 相關實用程序組件的概述,以開始討論將其移動到單獨的模塊中 “flink-hadoop-utils”。
[9]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/SerializableHadoopConfiguration-td38371.html
[10]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Introduce-a-new-module-flink-hadoop-utils-td39107.html
用戶問題
■ 葉賢勳在使用 Hive Source 的時候遇到了 Kerberos 認證的問題,社區同學進行了相關的討論和建議,感興趣的同學可以參考如下鏈接:
[11]http://apache-flink.147419.n8.nabble.com/Hive-Source-With-Kerberos-td1688.html
■ hiliuxg 在社區提問 Flink SQL 如何支持每隔 5 分鐘觸發當日零點到當前 5 分鐘的聚合計算。Jark Wu 和 Tianwang Li 進行了相關解答。
[12]http://apache-flink.147419.n8.nabble.com/flink-sql-5-5-td2011.html
■ hiliuxg 在社區提問 Flink SQL COUNT DISTINCT 性能優化。Benchao Li、田志聲、Lucas Wu、Lake Shen 展開了一些討論,有興趣的同學可以參考如下鏈接:
[13]http://apache-flink.147419.n8.nabble.com/flink-sql-td2012.html
■ 王志華 在社區提問 Flink DDL 如何支持自定義 Source/Sink 表。社區同學在郵件中進行了詳細的回答。
[14]http://apache-flink.147419.n8.nabble.com/ddl-td1959.html
■ 111 在社區提問 Flink SQL1.10 大表 join 如何優化?Jark Wu、Kurt Young 和 Jingsong Lee 進行了詳細的解答。目前 Flink SQL 的並行度(非 Source )並不是自動推斷出來的,需要通過設置table.exec.resource.default-parallelism,詳細的內容參考:
[15]http://apache-flink.147419.n8.nabble.com/Flink-SQL1-10-join-td2044.html
[16]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-SQL-How-can-i-set-parallelism-in-clause-of-group-by-td33736.html
■ Aaron Levin 在社區提問 如何能夠做到修改任務的併發,然後從 checkpoint 啟動任務。Piotr Nowojski、Till Rohrmann 參與了相關討論。內容涉及到 unaligned checkpoints (FLIP-76) 對savepoint 和 checkpoint 的影響。同時 Lake Shen 也提出了類似的問題。有興趣的同學可以參考:
[17]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Expected-behaviour-when-changing-operator-parallelism-but-starting-from-an-incremental-checkpoint-td33608.html
[18]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Cancel-the-flink-task-and-restore-from-checkpoint-can-I-change-the-flink-operator-s-parallelism-td33613.html
■ Jiawei Wu 在社區提問“如何使用 Flink SQL 計算 按照供應商分組同時入庫時間大於 15 天的庫存數據?”,有興趣的同學可以參考:
[19]http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Use-flink-to-calculate-sum-of-the-inventory-under-certain-conditions-td33323.html
■ Vinod Mehra 在社區提出了一個關於 Join 相關的問題。這個問題比較複雜,Timo Walther 進行了相關解答。裡面涉及到了一些如何進行 Flink SQL 問題的排查。有興趣的同學可以參考:
活動博客文章及其他
■ SQL 開發任務超 50% !滴滴實時計算的演進與優化
[21]https://ververica.cn/corporate_practice/evolution-and-optimization-of-didi-real-time-computing/
■ Flink 生態:一個案例快速上手 PyFlink
[22]https://ververica.cn/developers/pyflink-a-case-in-hand/
■ 一套 SQL 搞定數據倉庫?Flink有了新嘗試[23]https://ververica.cn/developers/a-set-of-sql-to-handle-data-warehouse/
■ 如何在 Flink 中規劃 RocksDB 內存容量?
[24]https://ververica.cn/developers/how-to-plan-the-memory-capacity-of-rocksdb-in-flink/
2 分鐘快速訂閱 Flink 中文郵件列表
Apache Flink 中文郵件列表訂閱流程:
- 發送任意郵件到 [email protected]
- 收到官方確認郵件
- 回覆該郵件 confirm 即可訂閱
訂閱成功後將收到 Flink 官方的中文郵件列表的消息,您可以向 [email protected] 發郵件提問也可以幫助別人解答問題,動動手測試一下!
Flink Weekly 作者徵集
Flink Weekly 是由社區同學發起的並持續更新的 Flink 社區每週動態彙總,內容涵蓋郵件列表中用戶問題的解答、社區開發和提議的進展、社區新聞以及其他活動、博客文章等,發佈於 Apache Flink 中文郵件列表、Flink 中文社區官方微信公眾號及各大社區專欄。
- 如果你也想積極參與社區,掌握社區最新動態
- 獲得 Apache Flink PMC 及 Committer 對技術文章寫作的指導
- 與社區深度參與者們交流
- 擁有更多曝光的平臺與機會
歡迎報名 Flink Weekly 作者!眾所周知,Flink 學的好,女朋友容易找,Flink 學成,頭髮茂!點擊“閱讀原文”填寫信息即可加入小松鼠大家庭~
作者介紹:
張成,小紅書技術部基礎平臺開發工程師,目前主要在做基於 Flink 的實時計算平臺開發。