Cloudera运维
1. 增加一个节点
1. 拷贝cm的jar包到该节点
2. 设置hostname(hostnamectl set-hostname XXX),然后修改hosts文件
3. 所有的节点添加该hostname
4. 修改agent配置文件,指向cloudera manager节点;启动cm
5. 进入到管理页面,host -> add new hosts to cluster ->选择已经被识别出来机器(只要启动agent,配置正确就可以被识别出来,手动发现的流程,证明agent没有起来或者配置异常,手动发现的流程,在安装过程将会从网上下载安装包,而不是parcels那种安装方式)
因为启动cm之后才修改hostname,导致被cloudera manager识别为127.0.0.1,没事,只要重启agent即可。
2. role日志分析
cloudera异常日志中的role日志虽然在安装页面是空,但是点进去之后将会看到详细的日志;比如zookeeper中就是告诉我: Unable to access datadir, exiting abnormally,但是datadir是/var/lib/zookeeper啊,有啊;后来点入role full log之后,才看到是:
error occured while purging.
org.apache.zookeeper.server.persistence.FileTxnSnapLog$DatadirException: Missing data directory /var/lib/zookeeper/version-2, automatic data directory creation is disabled (zookeeper.datadir.autocreate is false). Please create this directory manually.
at org.apache.zookeeper.server.persistence.FileTxnSnapLog.<init>(FileTxnSnapLog.java:102)
at org.apache.zookeeper.server.PurgeTxnLog.purge(PurgeTxnLog.java:68)
at org.apache.zookeeper.server.DatadirCleanupManager$PurgeTask.run(DatadirCleanupManager.java:140)
at java.util.TimerThread.mainLoop(Timer.java:555)
at java.util.TimerThread.run(Timer.java:505)
够详细吧,因为之前装了dcos,所以估计这个datadir的目录结构被篡改了;于是在zookeeper的配置中将zookeeper.datadir.autocreate设置为true,问题解决。
3. 重装CDH集群
error occured while purging.
org.apache.zookeeper.server.persistence.FileTxnSnapLog$DatadirException: Missing data directory /var/lib/zookeeper/version-2, automatic data directory creation is disabled (zookeeper.datadir.autocreate is false). Please create this directory manually.
at org.apache.zookeeper.server.persistence.FileTxnSnapLog.<init>(FileTxnSnapLog.java:102)
at org.apache.zookeeper.server.PurgeTxnLog.purge(PurgeTxnLog.java:68)
at org.apache.zookeeper.server.DatadirCleanupManager$PurgeTask.run(DatadirCleanupManager.java:140)
at java.util.TimerThread.mainLoop(Timer.java:555)
at java.util.TimerThread.run(Timer.java:505)
够详细吧,因为之前装了dcos,所以估计这个datadir的目录结构被篡改了;于是在zookeeper的配置中将zookeeper.datadir.autocreate设置为true,问题解决。
3. 重装CDH集群
cloudera的删除一个集群之后,将会删掉/opt/cloudera/parcles下面所有的包;
重装集群的话,需要把dfs以及/var/lib/zookeeper文件夹删掉。
4. cloiudera manager的硬盘空间不够
安装完毕kerberos之后,启动集群失败,发现zookeeper启动的时候爆了一个异常:Error found before invoking supervisord: [Errno 28] No space left on device;发现应该是slave1机器上面的。但是通过df -h发现确实有一个100%的,就是cm_processes,这个分区只有1.9G,已经100%了。
于是进去看,其实关键是四个文件夹很占用空间:*-collect-host-statistics文件夹都是上百M的,本来分配的空间就小,这几个文件夹直接把这个分区给干满了。因为一看是收集的统计信息,就直接删掉,系统OK了。
于是进去看,其实关键是四个文件夹很占用空间:*-collect-host-statistics文件夹都是上百M的,本来分配的空间就小,这几个文件夹直接把这个分区给干满了。因为一看是收集的统计信息,就直接删掉,系统OK了。