本期導讀 :【OSS 訪問加速】第十講
主題:Impala 如何高效查詢 OSS 數據
講師:流影,阿里巴巴計算平臺事業部 EMR 技術專家
內容框架:
- 背景介紹
- Impala 使用 JindoSDK
- 具體演示
直播回放鏈接:(9/10講)
https://developer.aliyun.com/live/246875
一、背景介紹
Apache Impala 介紹
能夠對存儲在 Hadoop 集群的 PB 級數據進行快速 SQL 查詢分析的分佈式 MPP 查詢框架
使用 JindoSDK 高效查詢 OSS 數據
- JindoFS SDK 是一個簡單易用面向 Hadoop/Spark 生態的 OSS 客戶端,為阿里雲 OSS 提供高度優化的 Hadoop FileSystem 實現。
- 通過 JindoFS SDK,可以在 Hadoop 環境中直接使用 oss://bucket/ 的方式訪問阿里雲 OSS 上的內容。
二、Impala 使用 JindoSDK
1、安裝 jar 包
- 下載最新的jar包 jindofs-sdk-x.x.x.jar,將 sdk 包安裝到 Impala 的 lib 下
- 下載鏈接:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
- cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/
2、配置 JindoFSOSS 實現類
- 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 訪問OSS
3、配置 OSS Access Key
- 將 OSS 的Access Key、Access Key Secret、Endpoint 等預先配置在 Hadoop 的 core-site.xml 中
4、使用 JindoFS SDK 訪問 OSS
三、具體演示
演示邏輯
- 下載 JindoFS SDK
- 將 jar 包拷貝到 $IMPALA_HOME/lib/
- 修改 JindoSDK 配置
- 演示 Impala 加載和查詢 OSS 表
⭐點擊回放鏈接,直接觀看第9/10講視頻回放,獲取講師實例講解:
https://developer.aliyun.com/live/246875
相關資源
- 下載 JindoFS SDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
- Impala 使用 JindoSDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md
⭐Github鏈接:
https://github.com/aliyun/alibabacloud-jindofs
不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!