背景介紹
阿里雲數據湖分析(DLA)產品提供一站式的數據湖分析與計算服務。DLA SQL可以實現高效的在線分析,主要面向用戶探索式分析、報表以及輕量ETL的場景,支持OSS、RDS、AnalyticsDB、MaxCompute、TableStore、ElasticSearch等多種數據源。
DLA包含掃描量版本和CU版本,查詢默認會提交到按掃描量版本,並以掃描量計費。從新的版本開始引入虛擬集群概念,統一了按掃描量版本和CU版本,按掃描量計費的集群稱為public共享集群,它是所有用戶都可以使用的集群,並繼續按照掃描量計費,但由於是共享集群,它並不保證算力。CU版本是用戶可以購買的獨享虛擬集群,無論掃描量的多少,它的費用都是固定的;更關鍵的是,由於是獨享集群,它能保證算力;此外它還支持更多的數據源,如HDFS,以及近期發佈的分析支撐Kudu、Oceanbase等數據源。
新功能介紹
虛擬集群展示優化
- 進入DLA控制檯後,在概覽頁面,能看到你所擁有的SQL虛擬集群數和Spark虛擬集群數,也可以點擊跳轉到購買頁面。
- 進入虛擬集群管理頁面,可以查看虛擬集群的列表。在列表中,能看到所有虛擬集群,是否SQL默認集群,也能直接點擊去使用,提交的SQL到該集群。
- 進入虛擬集群詳情頁面,也可以查看該集群是否是SQL默認集群和集群標識詳細。
選擇虛擬集群執行SQL
當您在DLA控制檯購買SQL虛擬集群后,通過下面的方式能便捷的SQL的到指定的虛擬集群。
• 在SQL執行頁面,增加了SQL執行集群的下拉框,裡面會列出所有SQL虛擬集群,在下拉框中選擇SQL的虛擬集群,點擊同步執行或異步執行之後,SQL將會提交到指定的集群運行。
• 若需要通過BI工具連接DLA,並希望把SQL提交到指定的虛擬集群,而該BI工具不支持在SQL中指定hint,這種情況下,您可以在用戶名後加上 @標識 的方式實現。
例如,用戶名為oa_101302231286633637523c,虛擬集群標識為a2df,您可以把用戶名改為:
oa_101302231286633637597c@a2df
之後提交的SQL會默認提交到標識為a2df的虛擬集群。SQL虛擬集群的標識可以在虛擬集群詳情中查看。
通過虛擬集群過濾歷史SQL
如果你想查看提交到某一虛擬集群的SQL,現在也能方便的實現:登錄DLA控制檯,在SQL監控頁面, 通過虛擬集群過濾SQL。
此外,可以通過選擇慢SQL過濾框,把慢SQL查出來,由於public共享集群不保證算力,因此可能會導致SQL執行耗時,點擊加速鏈接,可以選擇購買獨享虛擬集群加速您的查詢。
設置默認虛擬集群
DLA默認會把查詢提交共享的public集群,如果希望默認把查詢提交到已購買的SQL虛擬集群,可以通過如下操作設置默認虛擬集群。
• 進入阿里云云雲生數據湖分析,點擊左側菜單欄的系統設置,在右側的下拉框中選擇SQL默認集群,點擊確定完成設置。
分析Kudu和OceanBase數據數據
Kudu作為開源分佈式存儲引擎,致力於高性能分析和簡化數據修改,具有高容錯、水平擴展,隨機訪問、高效分析的優點。OceanBase是由螞蟻集團完全自主研發的金融級分佈式關係數據庫,它具有數據強一致、高可用、高性能、在線擴展、高度兼容SQL標準和主流關係數據庫、低成本等特點。 為了滿足用戶分析Kudu和OceanBase的需求,新的DLA版本也支持分析Kudu、OceanBase數據。當前DLA獨享集群才支持分析Kudu和OceanBase的數據,因此需要先開通DLA獨享SQL虛擬集群。
使用DLA SQL的優勢
DLA SQL(兼容Presto)的目標是提供比開源自建更高的性價比、開箱即用的體驗、方便的數據攝入、MySQL生態帶來的簡單易用、內置各種優化的數據湖分析計算服務。用戶可以先通過使用Serverless版本低成本試用,然後根據使用頻率的高低、對資源是否有強獨佔的需求來決定生產環境使用Serverless版本還是CU版本。DLA SQL還在不斷發展中,目前規劃中的一些特性包含:
• 按照時間段或者工作負載進行自動擴縮容,幫助用戶節省成本。
• 支持文件緩存機制,提升查詢性能
• 內置大數據最佳實踐,自動攔截Bad SQL
歡迎大家關注我們的釘釘群獲取最新的信息: