爬虫学习(一)
url:统一资源定位符
网址,a链接,可以根据url获取指定的数据
聚焦爬虫:根据特定的需求,从网上把数据去下来
爬虫实现的思路:
网页的特点:每个网页有自己的url
网页是由HTML组成的
网页传输的时候使用http和https协议
爬取的思路:
使用一个url
写python代码,模拟浏览器发送http请求
解析数据,提取出来指定的数据,通过一定的规则来进行。
urllib库
作用:是python用来模拟http请求的库,他是python自带的库
urllib.request 模拟浏览器发送求情
urllib.parse 处理URL或是他们的参数
urllib.error 抛出异常,用来处理发送请求时候出现的异常
urllib.request.urlopen(): 专门来处理url进行数据的读取
response.read():以二进制来进行数据的读取
网上能碰到的编码个是只有两种
GBK
UTF8
二进制转化成为字符串:decode() 相当于解码
字符串变为二进制:encode() 相当于编码
更多HTTP协议问题请参考
https://blog.csdn.net/gueter/article/details/1524447