随笔分类 -  python 爬虫

摘要:常见的http状态码 100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。 101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102 阅读全文
posted @ 2018-09-29 15:28 gugubeng 阅读(124) 评论(0) 推荐(0) 编辑
摘要:1、bs4 BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。 和lxml相比,效率略低,用起来比较方便 bs4需要下载安装: pip install bs4 2、jsonPath(了解) 安装:pip install jsonpath 3、selenium se 阅读全文
posted @ 2018-09-29 15:25 gugubeng 阅读(132) 评论(0) 推荐(0) 编辑
摘要:1、代理服务器 ​ 1、为什么要使用代理服务器? ​ 有时候用同一个ip去抓取某个网站时,时间久了就会被该网站屏蔽。此时可以通过代理服务器,去代替我们真实的IP去爬取。 ​ 2、从哪里能够获取到代理服务器? ​ 代理服务器一般是要花钱购买的,如果用于实验也可以用免费的 ​ http://www.ku 阅读全文
posted @ 2018-09-29 15:23 gugubeng 阅读(107) 评论(0) 推荐(0) 编辑
摘要:1、POST和GET ​ get请求: ​ 1)创建url字符串(这个字符串中带有请求体) ​ 2)创建请求头 ​ 3)根据url和请求头创建请求对象 ​ 4)通过请求对象发起get请求 ​ post请求: ​ 1)创建url字符串(这个字符串中不带请求体) ​ 2)创建请求头 ​ 3)创建请求体 阅读全文
posted @ 2018-09-29 15:22 gugubeng 阅读(123) 评论(0) 推荐(0) 编辑
摘要:1、爬虫的概念 ​ 概念:Spider(网络蜘蛛),通过互联网生的一个个的节点,获取其中的数据,然后进行分析存储 ​ 爬虫的三个过程:数据的获取、数据的分析、数据的存储 ​ 爬虫的分类 ​ 通用爬虫: ​ 主要用于搜索引擎,百度、谷歌、360、必应等 ​ 工作原理: ​ 数据的获取=>网页的分析=> 阅读全文
posted @ 2018-09-29 15:21 gugubeng 阅读(142) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示