shouchengcheng
just do it

今天看了一下网络爬虫。看了很多博主的博文教程,自己也跟着教程走了一遍。

参考的是 http://kylen314.blog.com/2013/10/01/scrrapy_note1/ 这个博主的博文。

内容通俗易懂,但是首先要先在电脑上安装一个scrapy。

根据网上介绍,它是一个很流弊的爬虫框架,在网上有很多教程教你如何打这个环境。不过根据我自身试验,我发现一种最简单的。

首先我用的是ubuntu12.04,我按照它官网手册安装,非常方便,只要sudo apt-get install 就可以搞定,当然前提是要添加相应的源。

具体操作可以看这里:http://doc.scrapy.org/en/latest/topics/ubuntu.html#topics-ubuntu

 

安装完了之后就可以照着教程走了。

一开始都是很顺利的,直到最后一个附加的程序。

我不知道是我系统的问题还是什么原因,我一直download不下来图片,然后我仔细看了一下记录。发现scrapy从文件读到的url地址,在最后都莫名的多加了'\n\r',结果导致url打不开,一直是404。

当我把后面两个截去之后,图片终于如愿的可以下载下来了,准确的说是爬下来了。

然后我给它写了一个简单的bash文件,将命令都放里面去,实现一键下载,到时候要下豆瓣上另外的图的时候,就稍微改一下代码就可以了。

这个project在github上有,我还没有传上去,等回去了再上传上去。

 add: https://github.com/shouchengcheng/doubanImage.git

posted on 2014-04-03 16:27  shouchengcheng  阅读(343)  评论(0编辑  收藏  举报