摘要: 之前我们爬取的都是那些无需登录就要可以使用的网站但是当我们想爬取自己或他人的个人中心时就需要做登录,一般进入登录页面有两种 ,一个是独立页面登陆,另一个是弹窗,我们先不管验证码登陆的问题 ,现在试一下直接登陆的爬取: 爬虫是模拟人的行为来请求网页读取数据的现在我们划分一下过程,从登陆到获取: 先看一 阅读全文
posted @ 2018-01-31 21:07 我爱在伊甸园吃苹果 阅读(674) 评论(0) 推荐(0) 编辑
摘要: 现在爬取http://category.dangdang.com/pg1-cid4008149.html网址上的商品价格,名称,评价数量 先准备下下数据:商品名,商品链接,评价数量 第一步:在item.py里进行设置 第二步:在setting里设置 将ROBOT文件设置为禁用 在设置里打开数据处理文 阅读全文
posted @ 2018-01-31 14:54 我爱在伊甸园吃苹果 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 上卷中我运用创建HtmlXPathSelector 对象进行抓取数据: 现在咱们再试一下其他的方法,先试一下我得最爱XPATH 看下结果: 直接打印出结果了 我现在就正常拼下路径 只求打印结果: 现在再说说 最常见的正则的用法说实话你要是初学者用很正常 我觉得正则不是特别好,但是还是要会的,它引入的 阅读全文
posted @ 2018-01-31 13:26 我爱在伊甸园吃苹果 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接 现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrapy框架里自带标签选择器HtmlXPathSelector,具体的使用规则可以查阅一下我就不介绍了 我 阅读全文
posted @ 2018-01-31 12:38 我爱在伊甸园吃苹果 阅读(5879) 评论(0) 推荐(0) 编辑
摘要: 上一卷中介绍了安装过程,现在我们开始使用这个神奇的框架 跟很多博主一样我也先选择一个非常好爬取的网站作为最初案例,那么我先用屌丝必备网站http://www.shaimn.com/xinggan/作为这一卷的案例,不用想有图,有字 第一步: 创建爬虫文件: 现在切换到scrapy_test的根目录下 阅读全文
posted @ 2018-01-31 11:06 我爱在伊甸园吃苹果 阅读(803) 评论(0) 推荐(0) 编辑
摘要: 一般爬虫都是用urllib包,requests包 配合正则.beautifulsoup等包混合使用,达到爬虫效果,不过有框架谁还用原生啊,现在我们来谈谈SCRAPY框架爬虫, 现在python3的兼容性上来了,SCRAPY不光支持python2版本了,有新的不用旧的,现在说一下让很多人望而止步的安装 阅读全文
posted @ 2018-01-31 09:02 我爱在伊甸园吃苹果 阅读(394) 评论(0) 推荐(0) 编辑