专注于快乐的事情

CDH学习和安装

测试环境安装

docker pull cloudera/quickstart:latest

docker rm cloudera -f

docker run –name cloudera –privileged=true –hostname=quickstart.cloudera -p 8020:8020 -p 7180:7180 -p 8888:8888 -p 21000:21000 -p 21050:21050 -p 50070:50070 -p 50075:50075 -p 50010:50010 -p 50020:50020 -p 60010:60010 -p 4040:4040 -p 18088:18088 -p 60020:60020 -t -i -d -v /etc/localtime:/etc/localtime:ro cloudera/quickstart /usr/bin/docker-quickstart

docker run –name cloudera –privileged=true –hostname=quickstart.cloudera -p 8020:8020 -p 7180:7180 -p 8888:8888 -p 21000:21000 -p 21050:21050 -p 50070:50070 -p 50075:50075 -p 50010:50010 -p 50020:50020 -p 60010:60010 -p 2181:2181 -p 60020:60020 -p 60000:60000 -p 18088:18088 -t -i -d -v /etc/localtime:/etc/localtime:ro cloudera/quickstart /usr/bin/docker-quickstart

docker start cloudera

可以通过/usr/bin/docker-quickstart start来启动所有的CDH服务。

如果需要单独启动可单独运行/usr/bin下的命令。

集群测试

cloudera-manager为分布式集群设计的,默认没有启动,如果需要进入该容器,并执行
/home/cloudera/cloudera-manager --force --express来启动cloudera-manager,有些服务可能被停掉。

http://10.168.1.111:7180
cloudera/cloudera进入系统

进入容器docker exec -ti cloudera /bin/bash

常用的管理地址

默认用户:cloudera/cloudera

组件 web
hue http://10.168.1.111:8888
hbase http://10.168.1.111:60010 或者 http://10.168.1.111:8888/hbase/#Cluster
hdfs http://10.168.1.111:50070

数据库密码

scm数据库的用户名,密码,可以通过下面获得

more /etc/cloudera-scm-server/db.properties

mysql -ucm -pcloudera

常用进程和web端口

组件 节点 默认端口 配置 用途说明
HDFS NameNode 50070 dfs.namenode.http-address http服务的端口
HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输
HDFS DataNode 50075 dfs.datanode.http.address http服务的端口
HDFS DataNode 50020 dfs.datanode.ipc.address ipc服务的端口
HDFS SecondaryNameNode
HDFS 8020 高可用的HDFS RPC端口
YARN Resourcemanager 8088 yarn.resourcemanager.webapp.address http,Yarn 的WEB UI接口
YARN NodeManager
Hbase HMaster 60000 HBase Master管理端口
Hbase HMaster 60010 HBase Master Web UI管理端口
Hbase HRegionServer 60020 HRegionServer向HMaster定期汇报节点的负载状况
Hbase HRegionServer 60030 HBase Region Server Web UI 端口
Hive 9083 metastore服务默认监听端口
Hive 10000 Hive 的JDBC端口
HUE 8888 Hue WebUI 端口
Spark 7077 spark 的master与worker进行通讯的端口 standalone集群提交Application的端口
Spark 8080 master的WEB UI端口 资源调度
Spark 8081 worker的WEB UI 端口 资源调度
Spark 4040 Driver的WEB UI 端口 任务调度
Spark 18088 spark.history.ui.port
Spark 19888 mapreduce.jobhistory.webapp.address
CDH 7180 Cloudera Manager WebUI端口
CDH 7182 Cloudera Manager Server 与 Agent 通讯端口
ZooKeeper Zookeeper Client 2181 Zookeeper Client
ZooKeeper 2888 zookeeper集群内通讯使用,Leader监听此端口
ZooKeeper 3888 zookeeper端口 用于选举leader
ZooKeeper QuorumPeerMain
Kafka 9092 Kafka集群节点之间通信的RPC端口
Redis 6379 Redis服务端口

例如:通过访问http://10.168.1.111:50070来打开界面进行访问NameNode

hadoop集群中主要进程

master: NameNode, ResourceManager,
slaves: DataNode, NodeManager, RunJar, MRAppMaster,YarnChild

其中 RunJar, MRAppMaster,YarnChild与随着某个job的创建而创建,随着job的完成而终止。它们的作用分别是:
RunJar:完成job的初始化,包括获取jobID,将jar包上传至hdfs等。
MRAppMaster:每个job一个进程,主要跟踪job的运行情况,向RM申请资源等。
YarnChild:运行具体的map/reduce task。

job启动过程:
ResourceManage,NodeManager->RunJar->MRAppMaster->YarnChild

job退出过程:
YarnChild->MRAppMaster->RunJar
即所有的map/reduce均完成后,MRAppMaster才退出,最后RunJar退出,job完成

参考

https://hub.docker.com/r/cloudera/clusterdock/

https://wenku.baidu.com/view/1c2ad6ee43323968001c92be.html

http://www.aboutyun.com/thread-7513-1-1.html

cds搭建https://blog.csdn.net/u010476994/article/details/79257565
https://blog.csdn.net/u010936936/article/details/73650417

https://www.cloudera.com/documentation/enterprise/5-6-x/topics/cdh_ig_spark_configure.html

CDH5 快速入门手册v1.0
http://blog.itpub.net/31439905/viewspace-2134540/

错误
https://www.2cto.com/net/201609/544957.html

修改密码参考
https://blog.csdn.net/yujin2010good/article/details/72482007

评论系统未开启,无法评论!