摘要: 上卷中我运用创建HtmlXPathSelector 对象进行抓取数据: 现在咱们再试一下其他的方法,先试一下我得最爱XPATH 看下结果: 直接打印出结果了 我现在就正常拼下路径 只求打印结果: 现在再说说 最常见的正则的用法说实话你要是初学者用很正常 我觉得正则不是特别好,但是还是要会的,它引入的 阅读全文
posted @ 2018-01-31 13:26 我爱在伊甸园吃苹果 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接 现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了 我 阅读全文
posted @ 2018-01-31 12:38 我爱在伊甸园吃苹果 阅读(5879) 评论(0) 推荐(0) 编辑
摘要: 上一卷中介绍了安装过程,现在我们开始使用这个神奇的框架 跟很多博主一样我也先选择一个非常好爬取的网站作为最初案例,那么我先用屌丝必备网站http://www.shaimn.com/xinggan/作为这一卷的案例,不用想有图,有字 第一步: 创建爬虫文件: 现在切换到scrapy_test的根目录下 阅读全文
posted @ 2018-01-31 11:06 我爱在伊甸园吃苹果 阅读(803) 评论(0) 推荐(0) 编辑
摘要: 一般爬虫都是用urllib包,requests包 配合正则.beautifulsoup等包混合使用,达到爬虫效果,不过有框架谁还用原生啊,现在我们来谈谈SCRAPY框架爬虫, 现在python3的兼容性上来了,SCRAPY不光支持python2版本了,有新的不用旧的,现在说一下让很多人望而止步的安装 阅读全文
posted @ 2018-01-31 09:02 我爱在伊甸园吃苹果 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 多进程虽然使用方便,可以充分利用CPU,但是由于个进程之间是并行且各自有自己的数据存储,所以很难进行数据间的通信,需要接入第三方模块,现在我依旧用糗事百科讲解下多线程的应用,举个例子之前用4个进程同时抓取糗事百科的段子数据,现在呢我需要在一个进程里开启多个线程分别抓取糗事百科的段子与用户信息,也就是 阅读全文
posted @ 2018-01-23 20:39 我爱在伊甸园吃苹果 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 上卷中讲到,我有4个进程,可是我要同时爬取20+数据怎么办,很明显上卷的语法公式不可以,所以现在我引入线程池 现在看一下线程池的语法 看一下爬虫: 注意圈中重点 阅读全文
posted @ 2018-01-23 18:01 我爱在伊甸园吃苹果 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 进程这个东西概念很多人很模糊,而多进程并发爬虫也算是爬虫几大难点,现在我先说下进程的基本使用: 开启一个python文件 函数sayhi就是一个进程而且是主进程 现在呢我想循环输出NAME,n 正常我只要写一段循环就可以正常顺序逐条输出,也就是循环M次,所用的输出时间就是2M秒 我现在想让这些数据一 阅读全文
posted @ 2018-01-23 15:47 我爱在伊甸园吃苹果 阅读(537) 评论(0) 推荐(0) 编辑
摘要: Import urllib.request 正常爬取网页: url=网址 +代表 下面测试一下: 结果我就不显示了 令html为读取后的对象 先用正则表达式抓取数据 Import re 令rule是抓取的规则 测试一下: 阅读全文
posted @ 2018-01-21 16:14 我爱在伊甸园吃苹果 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 请求浏览器分为两种一种是不需要用户登录验证直接请求 另一种是需要用户登陆验证请求,现在说一下利用COOKIE实现,COOKIE在前端开发时有很多的作用,要熟练使用, 直接上代码了: 第一步:访问页面,得到COOKIE值 结果为: 第二步:让程序自动去登陆:准备下账号用于登录 结果如下: 第三步:登陆 阅读全文
posted @ 2018-01-21 12:42 我爱在伊甸园吃苹果 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 个人来讲我不是很喜欢REQURST这个第三方模块,一点不好用不如URLLIB,但身为技术人员,模块你可以不用但是你得会,就像生活质量我这个东西我不用但是我得有 先拿百度做个案例: 看下代码 结果为: 输出的值为状态码 表示请求成功 那么如何获取网页内容呢 现在给大家个案例网址 内容很简单就是个简单的 阅读全文
posted @ 2018-01-21 10:14 我爱在伊甸园吃苹果 阅读(150) 评论(0) 推荐(0) 编辑