開發與維運

數據湖實操講解【JindoFS 緩存加速】第十三講:Presto 訪問 OSS 透明緩存加速

本期導讀 :【JindoFS 緩存加速】第十三講

主題:Presto 訪問 OSS 透明緩存加速

講師:辰山,阿里巴巴計算平臺事業部 EMR 技術專家

內容框架:

  • JIndoFS 緩存模式簡介
  • Presto 訪問 OSS 的緩存加速
  • 實操演示

直播回放鏈接:(13講)

https://developer.aliyun.com/live/246923

一、JindoFS 緩存模式簡介

JindoFS緩存模式架構圖:

image.png

架構介紹:

  • Jindo Namespace Service:JindoFS 元數據管理以及 Storage 服務的管理
  • Jindo Storage Service:用戶數據的管理包含本地數據的管理和OSS上數據的管理
  • Jindo SDK 客戶端:所有上層計算引擎通過JindoFS SDK提供的客戶端訪問JindoFS文件系統,從而實現對後端存儲實現緩存加速

二、Presto 訪問 OSS 的緩存加速

部署緩存服務

  • 下載最新 Releaseb2smartdata-x.x.x.tar.gz,解壓並部署到集群所有節點上
  • 修改配置文件conf/bigboot.cfg

      image.png

  • 修改 sbin/nodes,配置所有storage service的節點列表
  • 啟動所有服務 ./sbin/start-service.sh


參考網址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安裝 jar包:下載最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Presto 節點安裝。

     cpjindofs-sdk-${version}.jar $PRESTO_HOME/plugin/hive-hadoop2/

  • 配置 JindoFS 實現類:將JindoFS 實現類配置到Hadoop的core-site.xml中

image.png

     

配置OSS Access Key

  • 將OSS的Access Key、Access Key Secret、Endpoint等預先配置在Hadoop的core-site.xml中。

    image.png 

配置客戶端連接緩存服務

客戶端通過環境變量 B2SDK_CONF_DIR 定位並加載配置文件 bigboot.cfg

  • 設置環境變量指定配置目錄

        export B2SDK_CONF_DIR= /path/to/sdk/conf

  • 在配置目錄下添加bigboot.cfg配置文件
     •
    client.storage.rpc.port = 6101

    •client.namespace.rpc.address = <NAMESPACE_ADDRESS>:8101

       •jfs.cache.data-cache.enable = true

image.png

完成以上配置之後,重啟 Presto所有服務

hive catalog 即可訪問OSS

Presto SQL讀取 OSS 上的數據後,會自動緩存到JindoFS緩存系統中,後續訪問相同的數據就能夠命中緩存

三、實操演示

點擊回放鏈接,直接觀看第13講視頻回放,獲取講師實例講解:

https://developer.aliyun.com/live/246923

Leave a Reply

Your email address will not be published. Required fields are marked *