2019 年 4月 29 日随笔档案 - 徐大

2019年4月29日

摘要： 1.简介 selenium可以认为是反反爬虫的最佳利器，它基本可以等同于真实的浏览器访问，用它可以加载到动态数据，也省去了cookie的操作，但是用这个有一个重大的效率问题。所以selenium可以用来爬取一些对爬虫限制很大的网站。 2.基本使用 # -*-coding:utf8 -*- #sele 阅读全文

posted @ 2019-04-29 03:33 徐大阅读(304) 评论(0) 推荐(0) 编辑

condition版生产者与消费者模式

摘要： 1.简介在爬虫中，生产者与消费者模式是经常用到的。我能想到的比较好的办法是使用redis或者mongodb数据库构造生产者消费者模型。如果直接起线程进行构造生产者消费者模型，线程容易假死，也难以构造复杂的生产者消费者模型。这里提供的condition版其实是最基本的生产者消费者模型的改良版，为了保阅读全文

posted @ 2019-04-29 03:09 徐大阅读(535) 评论(0) 推荐(0) 编辑

Xpath语法详解

摘要： 1.简介 XPath是一门在XML和HTML文档中查找信息的语言，可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角：更多工具扩展程序谷歌商店勾选XPath Helper（需要FQ） 2.语法详解 #1. 阅读全文

posted @ 2019-04-29 02:50 徐大阅读(13439) 评论(0) 推荐(0) 编辑

requests库的基本使用

摘要： 1.发送get请求 import requests # response=requests.get('http://www.baidu.com') # 查看响应内容，返回的是已经解码的内容 # response.text 服务器返回的数据，已解码。解码类型：根据HTTP头部对响应的编码做出有根据的推阅读全文

posted @ 2019-04-29 02:23 徐大阅读(218) 评论(0) 推荐(0) 编辑

urlib库的使用

摘要： urlib库实际上不是很常用，因为其api调用复杂，已被requests模块取代。 1.request发送请求 from urllib import request #默认指定的是get请求 #urlopen可以指定data，设置了这个值，那么将变成post请求 response=request.u 阅读全文

posted @ 2019-04-29 01:53 徐大阅读(513) 评论(0) 推荐(0) 编辑

公告