摘要:
# http协议请求# 如果进行客户端与服务器之间的信息传递,我们0可以用HTTP协议请求进行# 对于HTTP请求 主要分六种类型,各类型的作用如下"""1) GET请求:GET请求会通过URL网址传递信息,可以直接在URL中写上要传递的 信息, 也可以由表单进行传递。如果使用表单进行传递,这表单中 阅读全文
摘要:
# 超时设置# 有得时候我们访问一个网页,如果该网页长时间未响应,那么系统就会判断该网页超时打不开,即无法打开网页# 比如有些比较快的网站反应,我们希望在十秒内有反应来判断 timeout=10import urllib.requestfor i in range (1,50): try: file 阅读全文
摘要:
# 浏览器模拟 Headers属性# 有时候,我们无法爬取一下网页,会出现403错误,应为这些网页为了防止别人恶意采集其信息# 所以进行了一些反爬虫的设置# 所以想进行反爬机制可设置一些Header信息,模拟浏览器去进行访问网站# 首先用之前的方法进行爬取# import urllib.reques 阅读全文
摘要:
'''爬虫的使用第一点:就是Urlib库 常用的是 urlib.request,urlib.err,urlib.parse这里用python3常用 urlopen urlencode quote Requestfile.read()/file.readlines()读取全部内容 内容赋值为字符串f 阅读全文