日常的大數據使用中經常是在服務器命名行中進行操作,可視化功能僅僅依靠著各個組件自帶的網頁進行,那麼有沒有一個可以結合大家能在一個網頁上的管理工具呢?答案是肯定的,今天就和大家一起來探索大數據管理工具HUE的廬山真面目.
附上:
喵了個咪的博客:w-blog.cn
1.環境準備
編譯依賴
wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repo
sudo yum install apache-maven ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel gmp-devel libffi libffi-devel
ca /app/install
wget http://archive-primary.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.4.2.tar.gz
> chown -R root:root hue-3.7.0-cdh5.4.4
> chmod -R 777 hue-3.7.0-cdh5.4.4
# 啟動方式
/app/install/hue-3.7.0-cdh5.4.4/build/env/bin/python2.7 /app/install/hue-3.7.0-cdh5.4.4/build/env/bin/hue runcherrypyserver
2.配置文件修改
修改配置文件
vim /app/install/hue-3.7.0-cdh5.4.4/desktop/conf/hue.ini
- http_host = 0.0.0.0 (Hue Web Server所在主機/IP)
- http_port = 8000 (Hue Web Server服務端口)
- server_user = hadoop (運行Hue Web Server的進程用戶)
- server_group = hadoop (運行Hue Web Server的進程用戶組)
- default_user = hadoop (Hue管理員)
- default_hdfs_superuser = hadoop (HDFS管理用戶)
- fs_defaultfs = hdfs://hadoop-1:8020 (對應core-site.xml配置項fs.defaultFS)
- webhdfs_url = http://hadoop-1:50070/webhdfs/v1 (webhdfs訪問地址)
- hadoop_conf_dir = /usr/local/hadoop-2.7.3/etc/hadoop (Hadoop配置文件目錄)
- resourcemanager_host = hadoop (對應yarn-site.xml配置項yarn.resourcemanager.hostname)
- resourcemanager_api_url = http://hadoop-1:8088 (對應於yarn-site.xml配置項yarn.resourcemanager.webapp.address)
- proxy_api_url = http://hadoop-1:8088 (對應yarn-site.xml配置項yarn.web-proxy.address)
- history_server_api_url = http://hadoo-1:19888 (對應mapred-site.xml配置項mapreduce.jobhistory.webapp.address)
- hive_server_host = hadoop-1 (Hive所在節點主機名/IP)
- hive_server_port = 10000 (HiveServer2服務端口號)
- hive_conf_dir = /usr/local/hive-2.3.0/conf (Hive配置文件目錄)
一定要增加一個hue用戶
useradd hue
發現是webhdfs都是可以
curl –i "http://dev-hadoop:50070/webhdfs/v1/user?user.name=hadoop&op=GETFILESTATUS"
需要配置Hadoop訪問權限
vim /usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
vim /usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
重啟hadoop如果不行重啟服務器
3.使用HUE
可以在線執行Hive語句(這裡注意如果是Hbase關聯表是無法在HUE平臺使用的解決方法可以導出到Hive中的一個表在進查詢)
直接查看hdfs文件系統
管理 hadoop 作業
管理zookeeper狀態
關於hbase 不支持 thrift2 需要使用 hive使用thrift1 的版本才能結合使用 啟動之後就可以看到如下結果
4 總結
在各種各樣的組件下HUE無疑是最好的web工具的選擇,HUE還有很多其他的功能包括我們後面要說到的spark,sqoop等相關的組件都可以通過HUE進行在線管理.
注:筆者能力有限有說的不對的地方希望大家能夠指出,也希望多多交流!