大數據

Hive引擎Spark優化配置參數2

擴展spark driver

動態資源分配

在 Facebook,Spark 集群啟用了動態資源分配(Dynamic Executor Allocation),以便更好的使用集群資源,而且在 Facebook 內部,Spark 是運行在多租戶的集群上,所以這個也是非常合適的。比如典型的配置如下:

spark.dynamicAllocation.enabled = true
spark.dynamicAllocation.executorIdleTimeout = 2m
spark.dynamicAllocation.minExecutors = 1
spark.dynamicAllocation.maxExecutors = 2000

多線程事件處理

在 Spark 2.3 版本之前,事件處理是單線程的架構,也就是說,事件隊列裡面的事件得一個一個處理。如果你的作業很大,並且有很多 tasks,很可能會導致事件處理出現延遲,進一步導致作業性能出現問題,甚至使當前作業失敗。為了解決這個問題,SPARK-18838 這個 ISSUE 引入了多線程事件處理架構,每個事件都有其單獨的單線程 executor service 去處理,這樣就可以大大減少事件處理延時的問題。另外,由於每類事件都有單獨的事件隊列,所以會增加 Driver 端的內存佔用。

更好的 Fetch 失敗處理

在 Spark 2.3 版本之前,如果 Spark 探測到 fetch failure,那麼它會把產生這個 shuffle 文件的 Executor 移除掉。但是如果這個 Executor 所在的機器有很多 Executor,而且是因為這臺機器掛掉導致 fetch failure,那麼會導致很多的 fetch 重試,這種處理機制很低下。SPARK-19753 這個 ISSUE 使得 Spark 可以把上述場景所有 Executor 的 shuffle 文件移除,也就是不再去重試就知道 shuffle 文件不可用。

另外,Spark 最大 Fetch 重試次數也可以通過 spark.max.fetch.failures.per.stage 參數配置。

FetchFailed 會在 ShuffleReader 取數據失敗 N 次後拋出,然後由 executor 通過 statusUpdate 傳到 driver 端,實際的處理會在 DAGScheduler.handleTaskCompletion,它會重新提交該 Stage 和該 Stage 對應的 ShuffleMapStage,重試次數超過 spark.stage.maxConsecutiveAttempts 時會退出。

RPC 服務線程調優

當 Spark 同時運行大量的 tasks 時,Driver 很容易出現 OOM,這是因為在 Driver 端的 Netty 服務器上產生大量 RPC 的請求積壓,我們可以通過加大 RPC 服務的線程數解決 OOM 問題,比如 spark.rpc.io.serverThreads = 64。

spark shuffle相關的參數調優

**spark.shuffle.file.buffer
**
默認值:32k

參數說明:該參數用於設置shuffle write task的BufferedOutputStream的buffer緩衝大小。將數據寫到磁盤文件之前,會先寫入buffer緩衝中,待緩衝寫滿之後,才會溢寫到磁盤。

調優建議:如果作業可用的內存資源較為充足的話,可以適當增加這個參數的大小(比如64k),從而減少shuffle write過程中溢寫磁盤文件的次數,也就可以減少磁盤IO次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight

默認值:48m

參數說明:該參數用於設置shuffle read task的buffer緩衝大小,而這個buffer緩衝決定了每次能夠拉取多少數據。

調優建議:如果作業可用的內存資源較為充足的話,可以適當增加這個參數的大小(比如96m),從而減少拉取數據的次數,也就可以減少網絡傳輸的次數,進而提升性能。在實踐中發現,合理調節該參數,性能會有1%~5%的提升。

**spark.shuffle.io.maxRetries
**
默認值:3

參數說明:shuffle read task從shuffle write task所在節點拉取屬於自己的數據時,如果因為網絡異常導致拉取失敗,是會自動進行重試的。該參數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功,就可能會導致作業執行失敗。

調優建議:對於那些包含了特別耗時的shuffle操作的作業,建議增加重試最大次數(比如60次),以避免由於JVM的full gc或者網絡不穩定等因素導致的數據拉取失敗。在實踐中發現,對於針對超大數據量(數十億~上百億)的shuffle過程,調節該參數可以大幅度提升穩定性。

spark.shuffle.io.retryWait

默認值:5s

參數說明:具體解釋同上,該參數代表了每次重試拉取數據的等待間隔,默認是5s。

調優建議:建議加大間隔時長(比如60s),以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction

默認值:0.2

參數說明:該參數代表了Executor內存中,分配給shuffle read task進行聚合操作的內存比例,默認是20%。

調優建議:如果內存充足,而且很少使用持久化操作,建議調高這個比例,給shuffle read的聚合操作更多內存,以避免由於內存不足導致聚合過程中頻繁讀寫磁盤。在實踐中發現,合理調節該參數可以將性能提升10%左右。

spark.shuffle.manager

默認值:sort

參數說明:該參數用於設置ShuffleManager的類型。Spark 1.5以後,有三個可選項:hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項,但是Spark 1.2以及之後的版本默認都是SortShuffleManager了。tungsten-sort與sort類似,但是使用了tungsten計劃中的堆外內存管理機制,內存使用效率更高。

調優建議:由於SortShuffleManager默認會對數據進行排序,因此如果你的業務邏輯中需要該排序機制的話,則使用默認的SortShuffleManager就可以;而如果你的業務邏輯不需要對數據進行排序,那麼建議參考後面的幾個參數調優,通過bypass機制或優化的HashShuffleManager來避免排序操作,同時提供較好的磁盤讀寫性能。這裡要注意的是,tungsten-sort要慎用,因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold

默認值:200

參數說明:當ShuffleManager為SortShuffleManager時,如果shuffle read task的數量小於這個閾值(默認是200),則shuffle write過程中不會進行排序操作,而是直接按照未經優化的HashShuffleManager的方式去寫數據,但是最後會將每個task產生的所有臨時磁盤文件都合併成一個文件,並會創建單獨的索引文件。

調優建議:當你使用SortShuffleManager時,如果的確不需要排序操作,那麼建議將這個參數調大一些,大於shuffle read task的數量。那麼此時就會自動啟用bypass機制,map-side就不會進行排序了,減少了排序的性能開銷。但是這種方式下,依然會產生大量的磁盤文件,因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles

默認值:false

參數說明:如果使用HashShuffleManager,該參數有效。如果設置為true,那麼就會開啟consolidate機制,會大幅度合併shuffle write的輸出文件,對於shuffle read task數量特別多的情況下,這種方法可以極大地減少磁盤IO開銷,提升性能。

調優建議:如果的確不需要SortShuffleManager的排序機制,那麼除了使用bypass機制,還可以嘗試將spark.shffle.manager參數手動指定為hash,使用HashShuffleManager,同時開啟consolidate機制。在實踐中嘗試過,發現其性能比開啟了bypass機制的SortShuffleManager要高出10%~30%。

spark.reducer.maxBlocksInFlightPerAddress

默認值:Int.MaxValue(2的31次方-1)

限制了每個主機每次reduce可以被多少臺遠程主機拉取文件塊,調低這個參數可以有效減輕node manager的負載。

**spark.reducer.maxReqsInFlight
**
默認值:Int.MaxValue(2的31次方-1)

限制遠程機器拉取本機器文件塊的請求數,隨著集群增大,需要對此做出限制。否則可能會使本機負載過大而掛掉。。

spark.reducer.maxReqSizeShuffleToMem

默認值:Long.MaxValue

shuffle請求的文件塊大小 超過這個參數值,就會被強行落盤,防止一大堆併發請求把內存佔滿。

spark.shuffle.compress

默認壓縮 true

是否壓縮map輸出文件

spark.shuffle.spill.compress

默認:true

shuffle過程中溢出的文件是否壓縮,使用spark.io.compression.codec壓縮。

瞭解更多
大數據運維服務

Leave a Reply

Your email address will not be published. Required fields are marked *