大數據

阿里雲 MaxCompute 2021-3 月刊

MaxCompute 3月新發布功能


1、MaxCompute管家作業診斷功能發佈  查看文檔 >>


作業診斷功能是基於作業運行時產生的各個階段信息,與歷史運行數據對比分析總結問題並給出解決方案,提升作業運行效率實現運維自服務能力。

適用客戶

適用基於MaxCompute進行大數據開發和分析的開發者和分析師。

發佈功能

MaxCompute 管家發佈的慢作業、錯作業診斷功能,可以幫助大數據開發者和分析師在日常作業運維中,對慢作業和錯作業進行自助診斷分析,通過診斷分析結果給出的建議,對作業進行優化,從而提示作業的運行效率。


診斷功能主要支持7天以內的sql、mapreduce類型的作業診斷,基於作業運行時產生的各個階段狀態信息,與作業歷史運行數據進行對比分析,得出作業相比歷史在某些環節或診斷維度上的缺陷和問題,並針對問題給出相應的原因和解決方案。


診斷信息展示主要分為4大塊內容,分別是作業基礎信息、作業歷史運行instance列表、控制集群歷史耗時分析、計算集群歷史耗時分析,方便用戶對診斷結果進行閱覽,並快速獲取到診斷建議。


2、MaxCompute管家SQL週期作業持續空輸出或持續全表掃描推薦功能發佈  查看文檔 >>


MaxCompute管家將定期推薦“SQL週期作業持續空輸出或持續全表掃描”作業列表,方便用戶發現並進行作業性能和成本優化。

適用客戶

適用於通過MaxCompute進行大數據開發的開發者和審計運維人員。

發佈功能

MaxCompute管家將定期推薦需要進行性能或成本優化的作業列表,本次主要是針對 “SQL週期作業持續空輸出或持續全表掃描”。推薦的結果列表將給出最近一次執行的instance id(點擊可進入Logview)以及最近一個月持續運行的次數,可以很方便的獲取到需要優化的作業信息,通過信息輔助判斷是否需要對作業進行優化,如持續空輸出是否是無效作業無需運行避免資源浪費;如持續全表掃描是否是因為腳本遺漏了分區條件需要加上以便減少輸入量減少資源消耗。


如若推薦的列表裡有作業運行是正常符合預期,則可針對此作業進行取消訂閱,後面管家將不再推薦此指標的作業。


3、MaxCompute Project全量作業或Project全量SQL作業超時監控告警功能發佈  查看文檔 >>


MaxCompute Project全量、Project下SQL作業超時監控告警接入雲監控,方便業務管理或運維人員日常作業超時監控。

適用客戶

適用於大數據開發的業務管理或運維人員進行日常作業超時監控。

發佈功能

MaxCompute支持通過雲監控配置閾值報警規則,監控作業運行時長。當作業運行超時後,系統會將報警信息發送至報警聯繫人,助力及時識別異常作業,提升運維效率。本次主要支持兩個監控指標:

① 作業運行時長。以MaxCompute項目為單位,監控項目下的所有作業。如果某個作業的運行時間(包含等待時間)超過設定的閾值,系統會按照配置的報警規則將報警信息發送至報警聯繫人。如專用於分析師取數據的MaxCompute項目,通常作業運行耗時不長。您可配置該監控指標,如作業運行時間過長,可及時檢查是否存在資源緊張或作業計算量過大等問題。如項目存在需要長時間執行的作業,則不推薦配置該監控指標。例如Spark流式作業(spark.hadoop.odps.cupid.engine.running.type=longtime)。

② 作業運行時長_SQL類型。以MaxCompute項目為單位,監控項目下的所有SQL類型作業。如果某個SQL作業的運行時間(包含等待時間)超過設定的閾值,系統會按照配置的報警規則將報警信息發送至報警聯繫人。例如生產項目,您可配置該監控指標,如果作業運行時間過長,可以及時處理超時問題,避免出現業務延遲。

4、MaxCompute 外部表支持Snappy、Lzo壓縮格式  查看文檔 >>


MaxCompute 開源數據格式外部表支持Snappy、Lzo壓縮格式文件的讀寫。

適用客戶

適用於大數據開發者。

發佈功能

如果您的數據格式為textfile,如Json,存放在OSS,希望通過外部表讀寫且支持壓縮,MaxCompute 提供了開源數據格式外部表對Snappy、Lzo壓縮文件的讀寫能力。

文件為Lzo壓縮格式,外部表會自動通過後綴名判斷壓縮算法,並讀取數據。向外部表寫入Lzo壓縮格式數據需要在建表時添加Lzo配置項。

文件為Snappy壓縮格式,外部表會自動使用Hadoop默認的Hadoop-Snappy解壓縮算法讀取數據。向外部表寫入Snappy壓縮格式數據同樣需要在建表時添加Snappy配置項。

您還可以使用Raw-Snappy壓縮算法的配置項實現對Raw-Snappy格式的壓縮文件讀寫。

5、MaxCompute SQL支持From_json/To_json函數  查看文檔 >>


MaxCompute SQL新增From_json/To_json函數用於Json數據處理。

適用客戶

適用於大數據開發者,分析師。

發佈功能

From_json函數可以將Json轉換成MaxCompute的數據類型,或提取Json中的信息,根據Json字符串jsonStr和schema信息,返回ARRAY、MAP或STRUCT類型。

To_json函數可以將給定的複雜類型Array、Map、Struct ,以Json字符串格式輸出。


6、MaxCompute SQL支持Update/Delete/Merge Into語法 (公測)


MaxCompute SQL新支持在行級別操縱表或者分區中的數據的能力,適合對錶或分區中少部分數據非頻繁刪除修改的場景。

適用客戶

開發者,分析師,對數倉中數據有刪除修改操作需求的用戶。

發佈功能

Update/Delete 是 MaxCompute 新支持的在行級別操作表或者分區數據的語句。相比之前訂正表或者分區中的少量數據,也需要讀取全量數據,關聯生成新數據之後再Insert Overwrite全量寫回的方法,Update/Delete 操作讀寫數據量都顯著下降。當您對目標表的一次操作包括Insert、Update、Delete邏輯時,Merge Into功能可以用一條SQL語句進行一次掃描完成全部操作,執行效率更高。同時,Merge Into任務具備原子性,任一內部邏輯處理失敗,則整體作業執行失敗,避免同一批操作部分邏輯無法回退或重做的問題。


相關的,您需要創建 Transactional 表才能使用Update/Delete/Merge Into功能。並且因為大數據系統保證任務級別的ACID,當作業併發運行且操作的目標表相同時,可能會出現作業衝突,具體請參考MaxCompute併發寫⾏為的ACID。

需要注意的是目前Update/delete/Merge Into 處於公測階段,不收取計算費用,但公測期間也暫時不對您使用此功能用於生產的作業和數據提供保證,重要數據請做好備份。


Update/Delete文檔 >> Merge Into >> 創建Transactional表 >> ACID語義說明 >>


MaxCompute 產品官網 >>

閱讀往期月刊 >>

更多關於大數據計算、雲數倉技術交流,可掃碼加入 “MaxCompute開發者社區” 釘釘群

444.png

Leave a Reply

Your email address will not be published. Required fields are marked *