2019年5月28日
摘要: 一 介绍 Python内置为我们提供了一个内置的模块叫urllib,是用于访问网络资源的,但是由于它内部缺少一些实用的功能,所以用起来比较麻烦。后来出现了一个第三方模块叫 "Requests",Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用c 阅读全文
posted @ 2019-05-28 23:09 HeiTangMuSi 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 一 介绍 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。 # selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。 from se 阅读全文
posted @ 2019-05-28 22:56 HeiTangMuSi 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 一 爬虫是什么 1. 爬虫介绍 ''' 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。 网络爬虫,即Web Spider,是一个很形象的名字。如果把 阅读全文
posted @ 2019-05-28 22:46 HeiTangMuSi 阅读(609) 评论(0) 推荐(0) 编辑