ganglia

refer to:

http://www.ttlsa.com/ganglia/ganglia-monitor-system/

http://ganglia.info/?page_id=66

https://www.it610.com/article/1490296295242358784.htm

原理架构

image

1、安装:

主要是三个模块:webfront、gmetad、gmond

#源码安装
# apt-get install libconfuse-dev expat libpcre3-dev libpango1.0-dev libxml2-dev libapr1-dev libexpat-dev libpcre3-dev rrdtool librrds-perl librrd2-dev python-dev
# wget http://nchc.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.2.0/ganglia-3.2.0.tar.gz
# tar zxvf ganglia-3.2.0.tar.gz -C ../software/
# ./configure --prefix=/usr/local/ganglia-3.2.0 --with-gmetad --enable-gexec
# make
# make install

#基于ubuntu apt 安装
server端:ganglia-monitor rrdtool gmetad ganglia-webfrontend
client端:ganglia-monitor

2、配置gmetad

sudo vi /etc/ganglia/gmetad.conf

查找cluster,注释掉该行,修改为:

# data_source "my cluster" localhost
data_source "my cluster" 10 192.168.56.103:8649

data_source后面有三个参数,第一个参数"my cluster"是集群名称;第二个参数10是轮询时间(单位:秒);第三个参数192.168.56.103:8649是要监听的机器的IP和端口(可写多个,用空格隔开)。

3、配置gmond

sudo vi /etc/ganglia/gmond.conf
分别找到:

cluster {
  name = "unspecified"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

udp_send_channel {
  mcast_join = 239.2.11.71
  port = 8649
  ttl = 1
}

udp_recv_channel {
  mcast_join = 239.2.11.71
  port = 8649
  bind = 239.2.11.71
}

修改为:

cluster {
  name = "my cluster" 
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}

udp_send_channel {
  # mcast_join = 239.2.11.71
  host = 192.168.56.103
  port = 8649
  ttl = 1
}

udp_recv_channel {
  # mcast_join = 239.2.11.71
  port = 8649
  # bind = 239.2.11.71
}

主节点和从节点配置一样

4、配置web ,项目一般就在web服务器的目录里

5、重启服务

sudo /etc/init.d/ganglia-monitor restart
sudo /etc/init.d/gmetad restart
sudo /etc/init.d/apache2 restart

6、界面显示

Grid > cluster-name > hostname(节点的/etc/hosts文件中设置)

删除数据

由于重设了管理机的系统时间,发现所有的机器状态都变成了Hosts down,这时我们需要删除数据重新开始统计。

1、管理机删除rrds目录下所有文件
cd /var/lib/ganglia/rrds && sudo rm -rf ./*

2、管理机重启gmond和gmetad
sudo /etc/init.d/ganglia-monitor restart
sudo /etc/init.d/gmetad restart

3、客户机重启gmond
sudo /etc/init.d/ganglia-monitor restart

删除机器

ganglia默认服务器down机也不会在web前端清除该设备,官方文档介绍的办法如下:

1、登录管理机

2、编辑gmond.conf,sudo vim /etc/ganglia/gmond.conf
在globals中找到host_dmax,它的默认值为0,意思是不清除节点。host_dmax的单位为秒,我们把host_dmax的值修改为7天,就是60x60x24x7=604800,即超过7天未汇报数据的节点会从前端清除。

排错

gemetad 和 gmond 使用 -d 参数开启调试模式

1,节点添加gmond不生效的问题

容器中,使用命令 /etc/init.d/gmetad restart ,不生效的问题,直接kill 调进程,再重启。

posted @   风风羊  阅读(59)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
历史上的今天:
2020-08-04 scrapy 的response 的相关属性
点击右上角即可分享
微信分享提示