随笔分类 - python 爬虫
摘要:常见的http状态码 100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。 101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102
阅读全文
摘要:1、bs4 BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。 和lxml相比,效率略低,用起来比较方便 bs4需要下载安装: pip install bs4 2、jsonPath(了解) 安装:pip install jsonpath 3、selenium se
阅读全文
摘要:1、代理服务器 1、为什么要使用代理服务器? 有时候用同一个ip去抓取某个网站时,时间久了就会被该网站屏蔽。此时可以通过代理服务器,去代替我们真实的IP去爬取。 2、从哪里能够获取到代理服务器? 代理服务器一般是要花钱购买的,如果用于实验也可以用免费的 http://www.ku
阅读全文
摘要:1、POST和GET get请求: 1)创建url字符串(这个字符串中带有请求体) 2)创建请求头 3)根据url和请求头创建请求对象 4)通过请求对象发起get请求 post请求: 1)创建url字符串(这个字符串中不带请求体) 2)创建请求头 3)创建请求体
阅读全文
摘要:1、爬虫的概念 概念:Spider(网络蜘蛛),通过互联网生的一个个的节点,获取其中的数据,然后进行分析存储 爬虫的三个过程:数据的获取、数据的分析、数据的存储 爬虫的分类 通用爬虫: 主要用于搜索引擎,百度、谷歌、360、必应等 工作原理: 数据的获取=>网页的分析=>
阅读全文