统计ip的发送频率和该ip发送的有效消息(去除相似消息)的数目
一.统计ip的发送频率
统计一天日志中以某个时间间隔为单位的ip发送消息的频率。如:统计5分钟内ip的发送频率;统计30分钟内ip的发送频率。这里是统计以分钟为基本单位,发送频率即该ip在某时间间隔内的最大发送消息数。
统计脚本如下,名为ipFrequency.sh。
#!/bin/sh if [ "$1" != "" ] && [ "$2" != "" ]; then logfile="/data3/im-log/*.webim.log.imp.$1" interval=$2 else echo "***Usage:sh ipFrequency.sh date interval." echo "*****date format is YYYY-MM-DD." echo "*****interval is the ip time interval with minitues as a basic unit." echo "*****Eg:sh ipFrequency.sh 2013-05-12 5" exit fi cat $logfile | grep sendMsgOk | grep -v "fromUserId=0" | grep "spamReasons=\[\]" | gawk -F"\t" 'BEGIN{interval='$interval'} function getIP(name){ split(name, arr, "="); ip = arr[2]; sub(/^[[:blank:]]*/, "", ip);#去除左空格 sub(/[[:blank:]]*$/, "", ip);#去除右空格 return ip; } function getMins(time){ #将时间转化为分钟数 split(time, tarr, ":"); return tarr[1]*60+tarr[2]; }{ mins = getMins($1); ip = getIP($20); mi[mins"_"ip] ++ ; #将ip映射到分钟数上 if(dict[mins] != 0){ if(index(dict[mins],ip) == 0){ dict[mins] = dict[mins]","ip; } }else{ dict[mins] = ip; } }END{ for(i = 0; i < 24 * 60; i++){ #统计该时间间隔内的ip频率 for(j = i; (j < i + interval) && (j < 24 * 60); j++){ len = split(dict[j], ipArr, "," );#获取该分钟对应的ip列表 for(k = 1; k <= len; k++) { ip = ipArr[k]; fre[ip] += mi[j"_"ip]; iplist[ip] ++; #将该时间段内出现的ip放到数组中 } } #更新ip对应的最大频率 for(k in iplist){ if(fre[k] > max[k]){ max[k] = fre[k]; mintime[k] = int(i/60)":"(i%60); maxtime[k] = int((i + interval)/60)":"((i+interval)%60); } } delete iplist; delete fre; } #输出ip最大频率 for(k in max) { printf("%s-%s\t%s\t%d\n", mintime[k], maxtime[k], k, max[k]); } }'
使用如下:sh ipFrequency.sh 2013-06-08 5
即查询5分钟内的ip发送频率。
二.统计ip发送的消息中有效消息(去除相似消息)的个数
主要是通过similar_text()函数实现,该函数可以比较2个字符串的相似度,即相似百分比,给出一个参考博文:Php比较字符串相似度函数的利用
通过读取iplist文件中的ip,去日志文件中查找该ip发送的所有消息,将其所有消息中所有相似的消息去除,统计该ip实际发送的有效的消息是多少。
iplist中的内容如下,第一列为ip;第二列为该ip一天内发送的消息频率,即一天内发送的消息数:
221.179.130.199 581
27.207.158.114 2351
119.248.72.210 639
59.39.154.182 665
113.132.128.88 616
222.44.86.30 855
218.28.35.166 4713
180.213.9.98 1095
59.54.156.243 824
221.179.130.201 662
统计脚本如下,名为levenshtein.php。
<?php //统计ip发送消息的非相似频率(即一个ip对应的不同消息内容的个数) error_reporting(E_ALL & ~E_NOTICE & ~E_WARNING); function similarity($str1, $str2){ //levenshtein($str1, $str2); if(strlen($str1) < 50 || strlen($str2) < 50){ return -1; } if(abs(strlen($str1) - strlen($str2))/max(strlen($str1), strlen($str2)) >= 0.2) return -1; similar_text($str1, $str2, $distance); return $distance; //(1 - $distance/max(strlen($str1), strlen($str2))); } //var_dump(similarity("2013年业务增长需求,\r\n正在向全国各地招收不同IP地址的\r\n(淘宝信誉代刷人员)、(没有中介)、(免费加入)、(工作时间自由)\r\n(待遇20元/时左右)<可在家做>>,详情请联系客服欣欣QQ: 36387959", "面试兼职淘宝网拍新款男女夏季(欧 韩 日)服装鞋帽、品牌饰品彩妆 商业会展礼仪,发型秀。请加QQ:2367369676将身高 年龄 体重 照片发我")); //exit; function getIPSimFre($ip) { $simArr = array(); $shell = "cat sendMsgOk.2013-06-07 | grep -v 'fromUserId=0' | grep 'spamReasons=\[\]' | grep ip=$ip | awk -F'\t' '{print $11;}'"; exec($shell, $log); foreach ($log as $msgContent) { $arr = explode('=', $msgContent); $content = $arr[1]; $isSim = false; foreach ($simArr as $key => $value) { if (similarity("$key", "$content") > 80) { $simArr[$key] ++; $isSim = true; break; } } if ($isSim == false) { $simArr[$content] = 1; } } global $wfp; $len = count($simArr); if($len <= 20){ fwrite($wfp, "---------------------$ip begin-----------------\n"); foreach ($simArr as $key=>$value) { fwrite($wfp, "$key\t$value\n"); } fwrite($wfp, "----------------------$ip end-------------------\n"); } return $len; } $wfp = fopen(dirname(__FILE__) . '/rubbish', 'w+'); $fp = fopen(dirname(__FILE__) . '/iplist', 'r'); while ($line = fgets($fp)) { $arr = explode("\t", $line); $ip = trim($arr[0]); $fre = trim($arr[1]); $simfre = getIPSimFre($ip); print "ip=$ip\tfre=$fre\tsimfre=$simfre\n"; } fclose($fp); fclose($wfp); ?>