上一页 1 ··· 4 5 6 7 8 9 10 11 下一页
摘要: 在client配置好zabbix_agent后,如果server端没配置自动发现,那就需要创建添加host。 首先找到地方。Configuration--Hosts--Create Host 创建host 解释如下: 建组参数 配置模板: 先select--再Add 最后 Update unlink 阅读全文
posted @ 2019-06-06 18:11 爬行的龟 阅读(1869) 评论(0) 推荐(0) 编辑
摘要: 模拟登陆知乎后,跳转到首页,返回400,请求无效,应该是知乎对request请求有做要求。 看了下请求头,主要关注cookie、referer和user_agent(不要问为什么,我看视频的),cookie在scrapy.Request里有单独参数。不管怎样,先测试下: 在Request里加上hea 阅读全文
posted @ 2019-05-20 22:24 爬行的龟 阅读(968) 评论(0) 推荐(0) 编辑
摘要: 使用selenium模拟登陆网站时,有些网站会识别chrome driver里的json信息,从而判断是不是爬虫程序,做到反爬效果。(比如知乎) 下面说明下怎么手动启动chromedriver 1)、启动chrome 给开始菜单里的chrome或者桌面快捷方式,右键打开文件夹所在路径 2)打开dos 阅读全文
posted @ 2019-05-20 21:06 爬行的龟 阅读(1442) 评论(0) 推荐(0) 编辑
摘要: 了解http常见状态码 可以通过输入错误的密码来找到登陆知乎的post:url 把Headers拉到底部,可以看到form data _xsrf是需要发送的,需要发送给服务端,否则会返回403错误,提示用户没权限访问 获取xsrf的方法: 接着使用re模块来获取到这一行数值 每次查看知乎页面要用ge 阅读全文
posted @ 2017-10-22 08:30 爬行的龟 阅读(418) 评论(0) 推荐(0) 编辑
摘要: session和cookie的作用和区别可以在网上查到,这里简单说下,我们使用的http协议本身是种无状态的协议,就是说web服务器接收到浏览器的请求,会直接返回相应内容,并不会检查是哪个浏览器,即浏览器不同的请求直接是没关系的。 如果是像新闻收发,这样没问题,但如果像淘宝这样,会记录用户浏览的商品 阅读全文
posted @ 2017-10-15 14:32 爬行的龟 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 在我们执行scrapy爬取字段中,会有大量的和下面的代码,当要爬取的网站多了,要维护起来很麻烦,为解决这类问题,我们可以根据scrapy提供的loader机制 首先,导入 ItemLoader 可以查看源码,这里先关注的是item和response两入参 debug调试,可以看到拿到的信息 不过实际 阅读全文
posted @ 2017-10-14 18:33 爬行的龟 阅读(5788) 评论(0) 推荐(2) 编辑
摘要: 上节说到Pipeline会拦截item,根据设置的优先级,item会依次经过这些Pipeline,所以可以通过Pipeline来保存文件到json、数据库等等。 下面是自定义json scrapy内置了json方法: 除了JsonItemExporter,scrapy提供了多种类型的exporter 阅读全文
posted @ 2017-10-05 13:12 爬行的龟 阅读(1267) 评论(0) 推荐(0) 编辑
摘要: unicode和utf-8编码 PS:数据在内存里,使用unicode编码会方便很多,因为这样占用的bit是统一的,而utf8对于不同的语言占用的bit不同的,但存储文件使用utf8编码会减少很多空间,所以需要灵活转换。 下面是py2中的例子,python存储在内存里的数据是自动转化成unicode 阅读全文
posted @ 2017-10-03 12:28 爬行的龟 阅读(619) 评论(0) 推荐(0) 编辑
摘要: PS:一个网站下除了主域名,还会有多个子域名 需要通过遍历把所有域名取到 深度优先的算法,根据上面的截图,爬取url的顺序是A--B--D--E--I C--F-G--H,实际上深度优先算法是通过递归算法来实现的 而广度优先和深度优先区分开来,会分层爬取,把同一层级的兄弟节点爬取完后,才会继续爬下一 阅读全文
posted @ 2017-10-03 12:28 爬行的龟 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 爬虫需要用到正则,python内置了正则re模块 关于贪婪匹配和懒惰匹配:正则默认匹配模式是贪婪匹配模式: 上面的例子,这种属于贪婪匹配,下面引入? 符号就能看出效果了,?属于懒惰匹配: 没加?的情况: +前面的字符至少出现一次,下面的子字符串‘AA’就不符合要求了: 大括号,限定次数: {m}匹配 阅读全文
posted @ 2017-10-03 12:28 爬行的龟 阅读(242) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 下一页
如有错误,欢迎指正 邮箱656521736@qq.com