rsync + inotify-tools实现文件的实时同步
文章摘自:http://lxw66.blog.51cto.com/5547576/1331048
rsync 帮助文档:http://man.linuxde.net/rsync
最近有个想法就是部署一台监控机器,上面装zabbix,ELK,tailon插件
我想把所有服务器上当天的日志文件同步到一台机器上,然后使用tailon 插件实时的在web端展现各台机器的日志
所以这里我首先要做的是把日志文件实时同步到monitor这台机器上,怎么做呢,网上搜了一下,使用rsync+inotify的
方法。
文章转自:http://ixdba.blog.51cto.com/2895551/580280
一、rsync的优点与不足
与传统的cp、tar备份方式相比,rsync具有安全性高、备份迅速、支持增量备份等优点,通过rsync可以解决对实时性要求不高的数据备份需求,例如定期的备份文件服务器数据到远端服务器,对本地磁盘定期做数据镜像等。
随着应用系统规模的不断扩大,对数据的安全性和可靠性也提出的更好的要求,rsync在高端业务系统中也逐渐暴露出了很多不足,首先,rsync同步数据时,需要扫描所有文件后进行比对,进行差量传输。如果文件数量达到了百万甚至千万量级,扫描所有文件将是非常耗时的。而且正在发生变化的往往是其中很少的一部分,这是非常低效的方式。其次,rsync不能实时的去监测、同步数据,虽然它可以通过linux守护进程的方式进行触发同步,但是两次触发动作一定会有时间差,这样就导致了服务端和客户端数据可能出现不一致,无法在应用故障时完全的恢复数据。基于以上原因,rsync+inotify组合出现了!
inotify简介:
inotify是一种强大的,细粒度的,异步文件系统时间监控机制,它可以替代crond实现与rsync的触发式文件同步,从而监控文件系统中添加,删除,修改,移动等细粒事件,从LINUX 2.6.13起,就已加入了对inotify的支持,所以我们只需要安装一个第三方软件inotify-tools即可管理此服务.之前利用的rsync+crond来触发实现同步的瓶颈在于,rsync在同步数据时,需要先扫描所有文件后进行比对,而后进行差异传输,如果文件数量级别很大而且变化会很快,扫描所有文件会非常耗时,而且会存在漏同步的问题,造成效率低下.而rsync+inotify则会弥补前者先扫描后同步的效率问题,采用系统级别监控各种变化,当文件发生任何变化,就会触发rsync同步,解决效率与实时性问题。
上面也说说了,我们的inotify-tools需要确认系统的内核版本是不是高于2.6.13
所以第一步检查我们的系统内核版本
[root@git ~]# uname -r
2.6.32-431.el6.x86_64
[root@git ~]# ll /proc/sys/fs/inotify/
总用量 0
-rw-r--r-- 1 root root 0 5月 19 10:09 max_queued_events
-rw-r--r-- 1 root root 0 5月 19 10:09 max_user_instances
-rw-r--r-- 1 root root 0 5月 19 10:09 max_user_watches
如果有上面三项输出,表示系统已经默认支持inotify,现在可以安装inotify-tools
wget http://cloud.github.com/downloads/rvoicilas/inotify-tools/inotify-tools-3.14.tar.gz
tar xf
cd
./configure --prefix=/usr/local
make && make install
ll /usr/local/inotify/bin
-rwxr-xr-x. 1 root root 44327 7月 13 13:41 inotifywait
-rwxr-xr-x. 1 root root 41433 7月 13 13:41 inotifywatch
inotify 安装完成后,系统会生成inotifywait和inotifywatch两个指令,inotifywait用于等待文件或文件集上的一个特定事件,它可以监控任何文件和目录设置,并且可以递归地监控整个目录树。
inotifywatch用于收集被监控的文件系统统计数据,包括每个inotify事件发生多少次等信息。
现在我们在服务端和可客户端都装上rsync
yum -y install rsync
现在我们在服务端(也就是备份端),手动创建rsync配置文件
[root@zabbix logs]# cat /etc/rsyncd.conf
uid = root
gid = root
usechroot = no
max connections = 20
timeout = 600
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsync.lock
log file = /var/log/rsyncd.log
[web_log]
path = /data/web_log/
ignore errors
read only = false
writeonly = false
list = false
hosts allow = 192.168.220.99
auth users = backuser
secrets file = /etc/rsync.pass
创建如上的配置文件之后,再手动输入一个密码
从配置文件当中,我们可以看到我们的密码文件是/etc/rsync.pass,连接模块的用户名是backuser
vim /etc/rsync.pass
文件内容格式如下
backuser:123
然后给这个文件的权限设为600,不然会报错
chmod 600 /etc/rsync.pass
然后我们就去手动创建备份目录
mkdir /data/web_log
最后就是启动rsync,并且设置为开机自动启动
/usr/bin/rsync --daemon &
echo "/usr/bin/rsync --daemon" >>/etc/rc.local
服务端我们可以给rsync 开一个端口,然后再防火墙上允许该端口
在rsyncd.conf文件中添加
port=55223
然后设置iptables,允许客户端连接
-A INPUT -s 192.168.220.99/32 -p tcp -m tcp --dport 55873 -j ACCEPT
接下来我们就要去配置客户端了(也就是需要同步文件的机器)
首先还是安装软件
yum -y install rsync
我们也要创建一个密码文件,这个文件位置你随便放,我就放在/etc目录下了,怕别人不小心删除了
vim /etc/rsync.pass
123
密码得和服务端的一致
chmod 600
然后就安装inotify了,上面说过了
wget http://cloud.github.com/downloads/rvoicilas/inotify-tools/inotify-tools-3.14.tar.gz
tar xf
cd
./configure --prefix=/usr/local
make && make install
这里我们测试一下文件的上传下载
这里因为我们修改了rsync的默认端口873,所以在传输的时候我们要加上端口号,否则是传输不过去的
rsync -vzrtopg --port=55873 --progress /usr/local/nginx/logs/access.log backuser@192.168.220.98::web_log --password-file=/etc/rsync.pass #上传文件
rsync -vzrtopg --port=55873 --progress backuser@192.168.220.98::web_log /opt/ --password-file=/etc/rsync.pass #下载文件
现在就要做重要的事情了,要做当我的/usr/local/nginx/logs/access.log有变化的时候,他就同步到服务端
比如说,在192.168.220.99这台服务器上的某个文件需要实时同步到其他几台服务器上,比如说192.168.220.98,192.168.220.100
现在写一个脚本,让文件实时同步
vim /root/inotify.sh
#!/bin/bash
src=/usr/local/nginx/logs/access.log #此文件是rsync客户端本地文件,需要上传到各个rsync服务节点
des1=web_log_1 # web1上需要同步的目录
des2=web_log_2 # web2上需要同步的目录
host1=192.168.220.98 #rsync服务节点1
host2=192.168.220.100 #rsync服务节点2
user1=backuser #连接rsync使用的用户名web1上
user2=backuser #连接rsync使用的用户名web2上
/usr/local/inotify/bin/inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f' -emodify,delete,create,attrib $src | while read file
do
/usr/bin/rsync -vzrtopg --delete --progress $src $user1@$host1::$des1 --password-file=/etc/rsync.pass
/usr/bin/rsync -vzrtopg --delete --progress $src $user2@$host2::$des2 --password-file=/etc/rsync.pass
echo "${files} was rsynced" >> /var/log/rsync.log 2>&1
done
或写成如下脚本
# vim /root/inotify.sh
#!/bin/bash
/usr/local/bin/inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f' -e modify,delete,create,attrib /mnt/ | while read file
do
/usr/bin/rsync -vzrtopg --delete --progress /usr/local/nginx/logs/access.log backuser@192.168.220.98::web_log_1 --password-file=/etc/rsync.pass
/usr/bin/rsync -vzrtopg --delete --progress /usr/local/nginx/logs/access.log backuser@192.168.220.100::web_log_2 --password-file=/etc/rsync.pass
echo "${files} was rsynced" >> /var/log/rsync.log 2>&1
done
chmod +x /root/inotify.sh
/root/inotify.sh &
把脚本文件加入系统自启动文件
echo "/root/inotify.sh" >> /etc/rc.local
7.向/mnt/下添加内容,去103上查看是否同步
# ls /data/web_log/
1 11 2 3 4 5 6 7 9
8.编写监听inotify进程脚本,防止inotify由于某种原因中断无法实时同步(如果不需要监听,此步可以跳过)
# vim /root/inotifyjianting.sh
#!/bin/bash
ps -lef |pgrep inotify &> /dev/null #如果有inotify进程在运行,那么echo $? 返回值是0,条件为真。否则返回值为非0
if [ -z $? ] ;then #关键在$?这个变量 ,它是代表上一条命令执行后的退出状态,如果是0的话表示成功,非0表示未开启
echo "inotify runing 正在运行...."
else
/root/inotify.sh &
echo "inotify runing 已运行....."
fi
# chmod +x /root/inotifyjianting.sh
9.添加定时任务计划
# crontab -e
* * * * * /root/inotifyjianting.sh &> /dev/null
四、rsync如何排除不想同步的目录或文件(web3)
单个文件排除:比如我不想同步/opt/aa.php文件,直接使用 --exclude “aa.php”
此处只拿一台web举例,如有多台,可自行添加
# vim /root/inotify.sh
#!/bin/bash
src=/opt/
des=web_log
ip=192.168.1.103
/usr/local/bin/inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f' -emodify,delete,create,attrib $src | while read file
do
rsync-vzrtopg --delete --progress --exclude"aa.php" $src backuser@$ip::$des--password-file=/etc/rsync.password > /dev/null 2>&1 && echo"$src was rsynced"
echo"${files} was rsynced" >>/tmp/rsync.log 2>&1
done
#ps -elf| pgrep inotify |xargs kill -9 #杀死后台运行的inotify脚本
杀死后台运行的inotify脚本
# ps -elf| pgrep inotify |xargs kill -9
启动脚本
# sh /root/inotify.sh &
设置每一个inotify实例相关联的watchs的上限,否则传输的文件过多会报错
# echo 30000000 > /proc/sys/fs/inotify/max_user_watches
多个文件或目录排除:使用--exclude-from=“/root/xx.list”,文件列表,此文件名写绝对路径,写在哪里都可以,不必就写在/opt目录下
创建test目录
# mkdir/opt/test
修改inotify.sh脚本,添加列表文件
# vim /root/inotify.sh
#!/bin/bash
src=/opt/
des=web_log
ip=192.168.1.103
/usr/local/bin/inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f' -emodify,delete,create,attrib $src | while read file
do
rsync-vzrtopg --delete --progress --exclude-from="/root/xx.list" $src backuser@$ip::$des --password-file=/etc/rsync.password > /dev/null2>&1 && echo "$src was rsynced"
echo"${files} was rsynced" >>/tmp/rsync.log 2>&1
done
#ps -elf| pgrep inotify |xargs kill -9 #杀死后台运行的inotify脚本
编辑要排除文件的列表,即/root/xx.list
编辑要排除的文件列表,其中目录直接写目录名,文本文件写相对路径
# vim /root/xx.list #全部相对路径,也就是从/opt的下一级目录开始写,不写/opt目录
aw.php #排除/opt/aw.php文件,文件需要从/opt的下一级目录开始写,后面的路径要写全
bb #排除/opt/bb目录,目录无论是/opt的哪个路径下,只写目录名即可
cc #排除/opt/test/cc目录
test/ww.php #排除/opt/test/aa.php文件
杀死后台运行的进程
# ps -elf| pgrep inotify |xargs kill -9
执行脚本,在后台执行
# sh /root/inotify.sh &
设置每一个inotify实例相关联的watchs的上限,否则传输的文件过多会报错
# echo 30000000 > /proc/sys/fs/inotify/max_user_watches
创建aw.php,然后去web1和web2上分别查看,没有看到ww.php为成功,其余2个就不在此一一举例了,道理都一样
[root@localhostopt]# touch aw.php
[root@localhostopt]#/opt/ was rsynced
/opt/ wasrsynced
以是inotify相关参数介绍
脚本相关解释如下:
--timefmt:
指定时间的输出格式。
--format:
指定变化文件的详细信息。
这个脚本的作用就是通过Inotify监控文件目录的变化,进而触发rsync进行同步操作。由于这个过程是一种主动触发操作,是通过系统内核完成的,所以,比起那些遍历整个目录的扫描方式来,效率要高很多。
然后我们将此脚本放入后台运行,输入如下命令即可:
Sh /root/rsync.sh&
rsync参数说明:
-z 传输时压缩;
-P 传输进度;
-v 传输时的进度等信息,和-P有点关系,自己试试。可以看文档;
-e ssh的参数建立起加密的连接。
-u只进行更新,防止本地新文件被重写,注意两者机器的时钟的同时
--progress是指显示出详细的进度情况
--delete是指如果服务器端删除了这一文件,那么客户端也相应把文件删除,保持真正的一致
--password-file=/password/path/file来指定密码文件,这样就可以在脚本中使用而无需交互式地输入验证密码了,这里需要注意的是这份密码文件权限属性要设得只有属主可读。
inotify 参数说明:
-m 监控
-r 递归
-q 静默模式
-e 指定你要同步的事件
modify 修改
delete 删除
create 创建
attrib 属性
以下是rsyncd.conf配置文件参数介绍
全局参数说明
在文件中[modlue]之前的所有参数都是全局参数,当然也可以在全局参数部分定义模块参数,这时候该参数的值就是所有模块的默认值。
motd file |
"motd file"参数用来指定一个消息文件,当客户连接服务器时该文件的内容显示给客户,默认是没有motd文件的。 |
pid file |
指定rsync的pid文件。 |
socket options |
设置socket配置 |
syslog facility |
指定rsync发送日志消息给syslog时的消息级别,常见的消息级别是:uth, authpriv, cron, daemon, ftp, kern, lpr, mail, news, security, sys-log, user, uucp, local0, local1, local2, local3,local4, local5, local6和local7。默认值是daemon。 |
Log file |
"log file"指定rsync的日志文件,而不将日志发送给syslog。 |
模块参数说明
在全局参数之后就需要定义一个或多个模块了,模块中可以定义以下参数:
红色的为必须设置;绿色的为涉及到安全问题,应该使用默认配置;其他的为可以不进行设置。
comment |
给模块指定一个描述,该描述连同模块名在客户连接得到模块列表时显示给客户。默认没有描述定义。 |
path |
指定该模块的供备份的目录树路径,该参数是必须指定的。 |
use chroot |
如果"use chroot"指定为true,那么rsync在传输文件以前首先chroot到path参数所指定的目录下。这样做的原因是实现额外的安全防护,但是缺点是需要以roots权限,并且不能备份指向外部的符号连接所指向的目录文件。默认情况下chroot值为true。 |
numeric ids |
|
munge symlinks |
使传进来的文件的链接失效,但是可以恢复。只有在use chroot = true, and inside-chroot path是"/"时,为disable,其它默认为enable。防止传进的链接文件指向其不应该指向的文件,从而造成安全漏洞。 |
charset |
字符转换,如果不设置客户端—iconv将会被禁止。 |
max connections |
指定该模块的最大并发连接数量以保护服务器,超过限制的连接请求将被告知随后再试。默认值是0,也就是没有限制。 |
max verbosity |
Log信息数量控制,防止出现过多的verbose的log信息,默认为level 1。 |
lock file |
指定支持max connections参数的锁文件,默认值是/var/run/rsyncd.lock。 |
read only |
该选项设定是否允许客户上载文件。如果为true那么任何上载请求都会失败,如果为false并且服务器目录读写权限允许那么上载是允许的。默认值为true。 |
write only |
设置是否禁止客户端下载数据。默认为false。 |
list |
该选项设定当客户请求可以使用的模块列表时,该模块是否应该被列出。如果设置该选项为false,可以创建隐藏的模块。默认值是true。 |
uid |
该选项指定当该模块传输文件时守护进程应该具有的uid,配合gid选项使用可以确定哪些可以访问怎么样的文件权限,默认值是"nobody"。 |
gid |
该选项指定当该模块传输文件时守护进程应该具有的gid。默认值为"nobody"。 |
fake super |
和客户端--fake-user的参数相似,=true是无论守护进程启动权限是否为root,存储的文件将所有属性存储。 |
filter |
文件访问权限控制。daemon filter chain is built from the "filter", "include from", "include", "exclude from", and "exclude" parameters。 |
exlude |
用来指定多个由空格隔开的多个模式列表,并将其添加到exclude列表中。这等同于在客户端命令中使用--exclude来指定模式,不过配置文件中指定的exlude模式不会传递给客户端,而仅仅应用于服务器。一个模块只能指定一个exlude选项,但是可以在模式前面使用"-"和"+"来指定是 exclude还是include。但是需要注意的一点是该选项有一定的安全性问题,客户很有可能绕过exlude列表,如果希望确保特定的文件不能被访问,那就最好结合uid/gid选项一起使用。 |
exlude from |
指定一个包含exclude模式的定义的文件名,服务器从该文件中读取exlude列表定义。 |
include |
用来指定多个由空格隔开的多个rsync并应该exlude的模式列表。这等同于在客户端命令中使用--include来指定模式,结合include和 exlude可以定义复杂的exlude/include规则。一个模块只能指定一个include选项,但是可以在模式前面使用"-"和"+"来指定是exclude还是include。 |
include from |
指定一个包含include模式的定义的文件名,服务器从该文件中读取include列表定义。 |
incoming chmod |
设置“set of comma-separated chmod strings “来修改所有传入的文件,并且将在所有权限设置完成后执行,除非客户端指定—perms。格式同chmod一致。 |
outgoing chmod |
同上,在文件传出前首先运行设置参数。 |
auth users |
该选项指定由空格或逗号分隔的用户名列表,只有这些用户才允许连接该模块。这里的用户和系统用户没有任何关系。如果"auth users"被设置,那么客户端发出对该模块的连接请求以后会被rsync请求challenged进行验证身份这里使用的 challenge/response认证协议。用户的名和密码以明文方式存放在"secrets file"选项指定的文件中。默认情况下无需密码就可以连接模块(也就是匿名方式)。 |
secrets file |
该选项指定一个包含定义用户名:密码对的文件。只有在"auth users"被定义时,该文件才有作用。文件每行包含一个username:passwd对。一般来说密码最好不要超过8个字符。没有默认的 secures file名,需要限式指定一个。(例如:/etc/rsyncd.secrets) |
strict modes |
该选项指定是否监测密码文件的权限,如果该选项值为true那么密码文件只能被rsync服务器运行身份的用户访问,其他任何用户不可以访问该文件。默认值为true。 |
hosts allow |
该选项指定哪些IP的客户允许连接该模块。客户模式定义可以是以下形式: 1 xxx.xxx.xxx.xxx,客户主机只有完全匹配该IP才允许访问。例如:192.167.0.1 2 a.b.c.d/n,属于该网络的客户都允许连接该模块。例如:192.168.0.0/24 3 a.b.c.d/e.f.g.h,属于该网络的客户都允许连接该模块。例如:192.168.0.0/255.255.255.0 4 一个主机名,客户主机只有拥有该主机名才允许访问,例如:backup.linuxaid.com.cn。 5 *.linuxaid.com.cn,所有属于该域的主机都允许。 默认是允许所有主机连接。 |
hosts deny |
指定不允许连接rsync服务器的机器,可以使用hosts allow的定义方式来进行定义。默认是没有hosts deny定义。 |
ignore errors |
指定rsyncd在判断是否运行传输时的删除操作时忽略server上的IP错误,一般来说rsync在出现IO错误时将将跳过--delete操作,以防止因为暂时的资源不足或其它IO错误导致的严重问题。 |
ignore nonreadable |
指定rysnc服务器完全忽略那些用户没有访问权限的文件。这对于在需要备份的目录中有些文件是不应该被备份者得到的情况是有意义的。应该设置为true。 |
transfer logging |
使rsync服务器使用ftp格式的文件来记录下载和上载操作在自己单独的日志中。 |
log format |
通过该选项用户在使用transfer logging可以自己定制日志文件的字段。其格式是一个包含格式定义符的字符串,可以使用的格式定义符如下所示: %a 远程IP地址;%b 实际传输的字节数;%B the permission bits of the file (e.g. rwxrwxrwt) ;%l 文件长度字符数;%c 当发送文件时,该字段记录该文件的校验码;%f 文件名;%G the gid of the file (decimal) or "DEFAULT" ;%h 远程主机名; %p 该次rsync会话的进程id;%o 操作类型:"send"或"recv"; %P 模块路径; %m 模块名;%i an itemized list of what is being updated;%U the uid of the file (decimal); %t 当前时间;%u 认证的用户名(匿名时是null); 默认log格式为:"%o %h [%a] %m (%u) %f %l",一般来说,在每行的头上会添加"%t [%p] "。在源代码中同时发布有一个叫rsyncstats的perl脚本程序来统计这种格式的日志文件。 |
timeout |
通过该选项可以覆盖客户指定的IP超时时间。通过该选项可以确保rsync服务器不会永远等待一个崩溃的客户。超时单位为秒钟,0表示没有超时定义,这也是默认值。对于匿名rsync服务器来说,一个理想的数字是600。 |
refuse options |
通过该选项可以定义一些不允许客户对该模块使用的命令参数列表。这里必须使用命令全名,而不能是简称。但发生拒绝某个命令的情况时服务器将报告错误信息然后退出。如果要防止使用压缩,应该是:"dont compress = *"。 |
dont compress |
用来指定那些不进行压缩处理再传输的文件,默认值是 *.gz *.tgz *.zip *.z *.rpm *.deb *.iso *.bz2 *.tbz |
pre-xfer exec, post-xfer exec |
在传输前指定要运行的命令行,如果命令运行失败,将停止传输。 注意:命令行将使用启动守护进程的用户权限执行! |
syslog facility |
指定rsync发送日志消息给syslog时的消息级别,常见的消息级别是:uth, authpriv, cron, daemon, ftp, kern, lpr, mail, news, security, sys-log, user, uucp, local0, local1, local2, local3,local4, local5, local6和local7。默认值是daemon。 |
Log file |
"log file"指定rsync的日志文件,而不将日志发送给syslog。 |