shell编程题(十八)
题目:
统计IP访问:要求分析apache访问日志,找出访问页面数量在前100位的IP数。日志大小在78M左右。
以下是apache的访问日志节选
202.101.129.218 - - [26/Mar/2006:23:59:55 +0800] "GET /online/stat_inst.php?pid=d065 HTTP/1.1" 302 20-"-" "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
答案:
#!/bin/bash awk '{print $1}' $1 | sort | uniq -c | sort -k1nr | head -n3
解析:
awk '{print $1}' $1
将文件中每一行按照空格隔开成许多域,选中第一个域
sort
默认按照ASCII码排序
uniq -c
在每一列旁边显示该行重复的次数
sort -k1nr
-k 指定类型或关键字排序
-k1 在本题中就是指定第一列的次数排序
-n 按数值排序
-r 逆序,默认是增序,逆序就是指降序
head -n3
head 用来显示档案的开头至标准输出中,默认 head 命令打印其相应文件的开头 10 行
-n<行数> 显示的行数(行数为负数表示从最后向前数)
sort 和 uniq详细点介绍 https://www.cnblogs.com/wanghao-boke/p/12122042.html