爬虫学习(一)

url:统一资源定位符

网址,a链接,可以根据url获取指定的数据

聚焦爬虫:根据特定的需求,从网上把数据去下来

爬虫实现的思路:

       网页的特点:每个网页有自己的url

       网页是由HTML组成的

       网页传输的时候使用http和https协议

爬取的思路:

       使用一个url

       写python代码,模拟浏览器发送http请求

       解析数据,提取出来指定的数据,通过一定的规则来进行。

urllib库

      作用:是python用来模拟http请求的库,他是python自带的库

       urllib.request         模拟浏览器发送求情

       urllib.parse            处理URL或是他们的参数

       urllib.error             抛出异常,用来处理发送请求时候出现的异常

       urllib.request.urlopen():           专门来处理url进行数据的读取

response.read():以二进制来进行数据的读取

网上能碰到的编码个是只有两种

         GBK

         UTF8

二进制转化成为字符串:decode()       相当于解码

字符串变为二进制:encode()               相当于编码

      

更多HTTP协议问题请参考

https://blog.csdn.net/gueter/article/details/1524447

posted @ 2019-02-11 20:37  石桥浪子  阅读(217)  评论(0编辑  收藏  举报