2017 年 12月 15 日随笔档案 - xiaojinniu425

2017年12月15日

摘要：转自： http://www.nnzhp.cn/archives/558 Scrapy是python开发的一个爬虫框架，如果你要学习它的话，可能第一步在安装的时候，就会遇到很多问题，因为Scrapy很多模块都是基于linux下的，可能你在mac上或者linux上面安装的时候，不会有什么问题，但是Wi 阅读全文

posted @ 2017-12-15 16:52 xiaojinniu425 阅读(136) 评论(0) 推荐(0) 编辑

垃圾算法

摘要：一个list先递增在递减，求最大值下标 aa = [1, 2, 4, 5, 6, 7, 12, 9, 8, 6, 4, 2, 1]for i in range(1, len(aa)): if aa[i-1]<aa[i] and aa[i]>aa[i+1]: print(i) 如果肯定是正常的山峰li 阅读全文

posted @ 2017-12-15 16:45 xiaojinniu425 阅读(187) 评论(0) 推荐(0) 编辑

linux之awk命令获取最后一列

摘要：统计分析中经常用的awk命令，其中用的最多的还是切分 cat test | awk -F',' '{print $1,$2} 能够很好的将记录按照需要切分开，但是如何获取最后一列呢？可以使用awk -F',' '{print $NF}' 来获取求和 -F，用，号分隔，求第3行的和 awk -F 阅读全文

posted @ 2017-12-15 16:40 xiaojinniu425 阅读(47767) 评论(0) 推荐(1) 编辑

Robots协议（爬虫协议、机器人协议）

摘要： Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 ____________________________________ Robots协议也称阅读全文

posted @ 2017-12-15 16:26 xiaojinniu425 阅读(3455) 评论(0) 推荐(0) 编辑

用python 写一个nagios插件监控http内容(转载)

摘要： nagios自带的http-check插件主要是检测地址url是否可以访问，在web+中间件的架构中容易出现url能访问，但是后台中间件拓机的情况，因为最近在自学python，所以写了个脚本检测url title的脚本，若中间件挂掉之后，则当前url的titile一定会发生变化，也可以专门设置一个t 阅读全文

posted @ 2017-12-15 16:18 xiaojinniu425 阅读(927) 评论(0) 推荐(0) 编辑

xiaojinniu425

公告