大數據

MaxCompute問答整理之2020-04~05月

本文是基於本人對MaxCompute產品的學習進度,再結合開發者社區釘群裡的一些問題,進而整理成文。希望對大家有所幫助。

問題一、MaxCompute SQL支持with as語句嗎?
支持,MaxCompute支持SQL標準的CTE,提高SQL語句的可讀性與執行效率。具體語法可參考官網文檔:
https://help.aliyun.com/document_detail/73788.html

問題二、MaxCompute Spark 如何在本地進行調試?
可以使用IDEA進行MaxCompute Spark進行本地調試。可參考官方文檔:https://help.aliyun.com/document_detail/118144.html

問題三、使用MMA工具做數據遷移時,有個job一直處於pending狀態,無法刪除pending的job,如何刪除呢?
目前只能取消遷移succeeded和failed任務。會有一個重試,重試結果任務掛掉就可以刪除。
MaxCompute Migration Assist(MMA)是一款MaxCompute數據遷移工具。MMA官方介紹:
https://help.aliyun.com/document_detail/149668.html

問題四、在MaxCompute中,100億條數據,使用Group by分組查詢會不會影響性能?使用Group by對數據量有沒有限制?
無影響,無限制。具體Group by分組查詢使用規則可參考官網文檔:
https://help.aliyun.com/document_detail/73777.html

問題五、創建MaxCompute項目空間,是只能在DataWorks控制檯中創建嗎?
是的,MaxCompute控制檯即為DataWorks控制檯,可在DataWorks創建工作空間。可參考官方文檔進行操作:
https://help.aliyun.com/document_detail/27815.html

問題六、

select a.*,b.ce from a left join b on a.cente_id = b.id WHERE a.pt='20200518' and b.pt='20200518'

選擇a和b表的分區20200518的數據,做left join?不行嗎?

可以改成下面這樣:

select a1.*,b1.ce
from (select * from a where pt='20200518')a1
left join (select * from b where pt='20200518')b1 on a1.cente_id = b1.id

問題七、開通MaxCompute服務,如何根據本身數據存儲量以及計算任務評估開通哪些產品規格?
新用戶建議開通MaxCompute按量付費版本,存儲和下載都是按量付費,正式跑一段時間之後再評估是否需要變換產品規格。
MaxCompute計費項可參考官方文檔:https://help.aliyun.com/document_detail/53056.html

問題八、有什麼命令可以查詢MaxCompute內表的存儲量和記錄條數?
單表的存儲量可以使用desc命令查看,記錄條數可以使用count。

問題九、MaxCompute數據類型版本如何理解?
目前Maxompute一共支持3個數據類型版本:
1、MaxCompute 2.0數據類型
2、MaxCompute 1.0數據類型
3、MaxCompute Hive兼容模式(即部分數據類型和SQL行為兼容Hive)
具體參數設置可參考官方文檔:https://help.aliyun.com/document_detail/27821.html

問題十、MaxCompute建表默認有壓縮功能嗎?可以指定壓縮格式和存儲格式嗎?
目前MaxCompute默認自動壓縮,默認存儲格式AliORC,不支持自定義。
MaxComptue存儲性能可參考官方文檔:https://help.aliyun.com/document_detail/162573.html

問題十一、DataWorks中的調度參數如何配置?
目前調度參數支持系統參數和自定義參數兩種形式:
• 系統參數可以在代碼中直接使用。
• 自定義參數需要在調度參數賦值處,給該變量賦值自定義參數後,在代碼中調用變量名。
可參考官方文檔:https://help.aliyun.com/document_detail/137548.html

問題十二、使用jdbc方式訪問MaxCompute可以向MaxComptue中插入數據嗎?
可以執行INSERT,具體可參考官方文檔:https://help.aliyun.com/document_detail/161246.html

問題十三、MaxCompute的存儲壓縮比是多少?
一般壓縮比是1:4,如果您有什麼具體的表或者分區覺得壓縮比不正常可以在MaxCompute社區釘群反饋,我們一起分析一下。

問題十四、數據源連通性測試失敗如何解決?
關於數據源連通性常見的問題可參考官方文檔:https://help.aliyun.com/document_detail/137671.html

問題十五、PyODPS節點是否支持python 3?
DataWorks在2020.05.21新增PyODPS 3節點,可參考官方文檔進行操作:https://help.aliyun.com/document_detail/167964.html

歡迎掃碼加入 MaxCompute開發者社區釘釘群,或點擊 申請加入。
2群.png

Leave a Reply

Your email address will not be published. Required fields are marked *