爬行的龟

2019年6月6日

摘要：在client配置好zabbix_agent后，如果server端没配置自动发现，那就需要创建添加host。首先找到地方。Configuration--Hosts--Create Host 创建host 解释如下：建组参数配置模板：先select--再Add 最后 Update unlink 阅读全文

posted @ 2019-06-06 18:11 爬行的龟阅读(1846) 评论(0) 推荐(0) 编辑

2019年5月20日

模拟登陆知乎，返回400

摘要：模拟登陆知乎后，跳转到首页，返回400，请求无效，应该是知乎对request请求有做要求。看了下请求头，主要关注cookie、referer和user_agent（不要问为什么，我看视频的），cookie在scrapy.Request里有单独参数。不管怎样，先测试下：在Request里加上hea 阅读全文

posted @ 2019-05-20 22:24 爬行的龟阅读(957) 评论(0) 推荐(0) 编辑

如果手工启动chromedriver

摘要：使用selenium模拟登陆网站时，有些网站会识别chrome driver里的json信息，从而判断是不是爬虫程序，做到反爬效果。（比如知乎）下面说明下怎么手动启动chromedriver 1）、启动chrome 给开始菜单里的chrome或者桌面快捷方式，右键打开文件夹所在路径 2）打开dos 阅读全文

posted @ 2019-05-20 21:06 爬行的龟阅读(1408) 评论(0) 推荐(0) 编辑

2017年10月22日

第十二篇 requests模拟登陆知乎

摘要：了解http常见状态码可以通过输入错误的密码来找到登陆知乎的post：url 把Headers拉到底部，可以看到form data _xsrf是需要发送的，需要发送给服务端，否则会返回403错误，提示用户没权限访问获取xsrf的方法：接着使用re模块来获取到这一行数值每次查看知乎页面要用ge 阅读全文

posted @ 2017-10-22 08:30 爬行的龟阅读(413) 评论(0) 推荐(0) 编辑

2017年10月15日

第十一篇 session和cookie自动登录机制

摘要： session和cookie的作用和区别可以在网上查到，这里简单说下，我们使用的http协议本身是种无状态的协议，就是说web服务器接收到浏览器的请求，会直接返回相应内容，并不会检查是哪个浏览器，即浏览器不同的请求直接是没关系的。如果是像新闻收发，这样没问题，但如果像淘宝这样，会记录用户浏览的商品阅读全文

posted @ 2017-10-15 14:32 爬行的龟阅读(451) 评论(0) 推荐(0) 编辑

2017年10月14日

第十篇 scrapy item loader机制

摘要：在我们执行scrapy爬取字段中，会有大量的和下面的代码，当要爬取的网站多了，要维护起来很麻烦，为解决这类问题，我们可以根据scrapy提供的loader机制首先，导入 ItemLoader 可以查看源码，这里先关注的是item和response两入参 debug调试，可以看到拿到的信息不过实际阅读全文

posted @ 2017-10-14 18:33 爬行的龟阅读(5774) 评论(0) 推荐(2) 编辑

2017年10月5日

第九篇数据表设计和保存item到json文件

摘要：上节说到Pipeline会拦截item，根据设置的优先级，item会依次经过这些Pipeline，所以可以通过Pipeline来保存文件到json、数据库等等。下面是自定义json scrapy内置了json方法：除了JsonItemExporter，scrapy提供了多种类型的exporter 阅读全文

posted @ 2017-10-05 13:12 爬行的龟阅读(1253) 评论(0) 推荐(0) 编辑

2017年10月3日

第四篇爬虫去重策略,以及编码问题

摘要： unicode和utf-8编码 PS：数据在内存里，使用unicode编码会方便很多，因为这样占用的bit是统一的，而utf8对于不同的语言占用的bit不同的，但存储文件使用utf8编码会减少很多空间，所以需要灵活转换。下面是py2中的例子，python存储在内存里的数据是自动转化成unicode 阅读全文

posted @ 2017-10-03 12:28 爬行的龟阅读(613) 评论(0) 推荐(0) 编辑

第三篇深度优先和广度优先

摘要： PS：一个网站下除了主域名，还会有多个子域名需要通过遍历把所有域名取到深度优先的算法，根据上面的截图，爬取url的顺序是A--B--D--E--I C--F-G--H，实际上深度优先算法是通过递归算法来实现的而广度优先和深度优先区分开来，会分层爬取，把同一层级的兄弟节点爬取完后，才会继续爬下一阅读全文

posted @ 2017-10-03 12:28 爬行的龟阅读(390) 评论(0) 推荐(0) 编辑

第二篇：正则表达式

摘要：爬虫需要用到正则，python内置了正则re模块关于贪婪匹配和懒惰匹配：正则默认匹配模式是贪婪匹配模式：上面的例子，这种属于贪婪匹配，下面引入？符号就能看出效果了，？属于懒惰匹配：没加？的情况： +前面的字符至少出现一次,下面的子字符串‘AA’就不符合要求了：大括号，限定次数： {m}匹配阅读全文

posted @ 2017-10-03 12:28 爬行的龟阅读(241) 评论(0) 推荐(0) 编辑

公告