摘要: 转自: http://www.nnzhp.cn/archives/558 Scrapy是python开发的一个爬虫框架,如果你要学习它的话,可能第一步在安装的时候,就会遇到很多问题,因为Scrapy很多模块都是基于linux下的,可能你在mac上或者linux上面安装的时候,不会有什么问题,但是Wi 阅读全文
posted @ 2017-12-15 16:52 xiaojinniu425 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 一个list先递增在递减,求最大值下标 aa = [1, 2, 4, 5, 6, 7, 12, 9, 8, 6, 4, 2, 1]for i in range(1, len(aa)): if aa[i-1]<aa[i] and aa[i]>aa[i+1]: print(i) 如果肯定是正常的山峰li 阅读全文
posted @ 2017-12-15 16:45 xiaojinniu425 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 统计分析中经常用的awk命令,其中用的最多的还是切分 cat test | awk -F',' '{print $1,$2} 能够很好的将记录按照需要切分开, 但是如何获取最后一列呢? 可以使用awk -F',' '{print $NF}' 来获取 求和 -F,用,号分隔,求第3行的和 awk -F 阅读全文
posted @ 2017-12-15 16:40 xiaojinniu425 阅读(47577) 评论(0) 推荐(1) 编辑
摘要: Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 ____________________________________ Robots协议也称 阅读全文
posted @ 2017-12-15 16:26 xiaojinniu425 阅读(3417) 评论(0) 推荐(0) 编辑
摘要: nagios自带的http-check插件主要是检测地址url是否可以访问,在web+中间件的架构中容易出现url能访问,但是后台中间件拓机的情况,因为最近在自学python,所以写了个脚本检测url title的脚本,若中间件挂掉之后,则当前url的titile一定会发生变化,也可以专门设置一个t 阅读全文
posted @ 2017-12-15 16:18 xiaojinniu425 阅读(925) 评论(0) 推荐(0) 编辑