python 爬虫 - 随笔分类 - gugubeng

爬虫 (五)

摘要：常见的http状态码 100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。 101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102 阅读全文

posted @ 2018-09-29 15:28 gugubeng 阅读(124) 评论(0) 推荐(0) 编辑

爬虫 (四)

摘要：1、bs4 BeaufulSoup 和lxml一样都是用于解析html的框架，对数据的分析和提取。和lxml相比，效率略低，用起来比较方便 bs4需要下载安装: pip install bs4 2、jsonPath（了解）安装：pip install jsonpath 3、selenium se 阅读全文

posted @ 2018-09-29 15:25 gugubeng 阅读(132) 评论(0) 推荐(0) 编辑

爬虫 (三)

摘要：1、代理服务器 1、为什么要使用代理服务器？有时候用同一个ip去抓取某个网站时，时间久了就会被该网站屏蔽。此时可以通过代理服务器，去代替我们真实的IP去爬取。 2、从哪里能够获取到代理服务器？代理服务器一般是要花钱购买的，如果用于实验也可以用免费的 http://www.ku 阅读全文

posted @ 2018-09-29 15:23 gugubeng 阅读(107) 评论(0) 推荐(0) 编辑

爬虫 (二)

摘要：1、POST和GET get请求： 1）创建url字符串（这个字符串中带有请求体） 2）创建请求头 3）根据url和请求头创建请求对象 4）通过请求对象发起get请求 post请求： 1）创建url字符串（这个字符串中不带请求体） 2）创建请求头 3）创建请求体阅读全文

posted @ 2018-09-29 15:22 gugubeng 阅读(123) 评论(0) 推荐(0) 编辑

爬虫 (一)

摘要：1、爬虫的概念概念：Spider（网络蜘蛛），通过互联网生的一个个的节点，获取其中的数据，然后进行分析存储爬虫的三个过程：数据的获取、数据的分析、数据的存储爬虫的分类通用爬虫：主要用于搜索引擎，百度、谷歌、360、必应等工作原理：数据的获取=>网页的分析=> 阅读全文

posted @ 2018-09-29 15:21 gugubeng 阅读(142) 评论(0) 推荐(0) 编辑

gugubeng

随笔分类 - python 爬虫

公告