摘要: 为什么要建立用户代理池? 如果我们用浏览器伪装,仅用一个浏览器标识,如果对方服务器的反爬手段高,我们这一个一直访问很容易被抓到,这时候我们可以建一个用户代理池,随机进行访问,增加我们的成功率 话不多说上代码 import urllib.request import random from my_fa 阅读全文
posted @ 2020-04-18 10:48 手可摘星辰/* 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 由上一个爬取到内存中的例子爬取京东的标题,轻而易举的就爬下来了,接下来我们将网址换一个例如:https://www.qiushibaike.com/ import urllib.request import re #ignore小细节自动略过,大大减少出错率 #将数据爬到内存中 #http://ww 阅读全文
posted @ 2020-04-18 09:36 手可摘星辰/* 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 将数据爬取到内存中 import urllib import urllib.request import re #打开京东网页并且进行读取,解码格式utf-8,ignore小细节自动略过,大大减少出错率 #将数据爬到内存中 #http://www.jd.com url = "http://www.j 阅读全文
posted @ 2020-04-18 09:05 手可摘星辰/* 阅读(301) 评论(0) 推荐(0) 编辑