摘要: 1.简介 selenium可以认为是反反爬虫的最佳利器,它基本可以等同于真实的浏览器访问,用它可以加载到动态数据,也省去了cookie的操作,但是用这个有一个重大的效率问题。所以selenium可以用来爬取一些对爬虫限制很大的网站。 2.基本使用 # -*-coding:utf8 -*- #sele 阅读全文
posted @ 2019-04-29 03:33 徐大 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 1.简介 在爬虫中,生产者与消费者模式是经常用到的。我能想到的比较好的办法是使用redis或者mongodb数据库构造生产者消费者模型。如果直接起线程进行构造生产者消费者模型,线程容易假死,也难以构造复杂的生产者消费者模型。这里提供的condition版其实是最基本的生产者消费者模型的改良版,为了保 阅读全文
posted @ 2019-04-29 03:09 徐大 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 1.简介 XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角:更多工具 扩展程序 谷歌商店 勾选XPath Helper(需要FQ) 2.语法详解 #1. 阅读全文
posted @ 2019-04-29 02:50 徐大 阅读(13380) 评论(0) 推荐(0) 编辑
摘要: 1.发送get请求 import requests # response=requests.get('http://www.baidu.com') # 查看响应内容,返回的是已经解码的内容 # response.text 服务器返回的数据,已解码。解码类型:根据HTTP头部对响应的编码做出有根据的推 阅读全文
posted @ 2019-04-29 02:23 徐大 阅读(215) 评论(0) 推荐(0) 编辑
摘要: urlib库实际上不是很常用,因为其api调用复杂,已被requests模块取代。 1.request发送请求 from urllib import request #默认指定的是get请求 #urlopen可以指定data,设置了这个值,那么将变成post请求 response=request.u 阅读全文
posted @ 2019-04-29 01:53 徐大 阅读(496) 评论(0) 推荐(0) 编辑