scrapy的简单上手 - shouchengcheng

今天看了一下网络爬虫。看了很多博主的博文教程，自己也跟着教程走了一遍。

内容通俗易懂，但是首先要先在电脑上安装一个scrapy。

根据网上介绍，它是一个很流弊的爬虫框架，在网上有很多教程教你如何打这个环境。不过根据我自身试验，我发现一种最简单的。

首先我用的是ubuntu12.04，我按照它官网手册安装，非常方便，只要sudo apt-get install 就可以搞定，当然前提是要添加相应的源。

安装完了之后就可以照着教程走了。

一开始都是很顺利的，直到最后一个附加的程序。

我不知道是我系统的问题还是什么原因，我一直download不下来图片，然后我仔细看了一下记录。发现scrapy从文件读到的url地址，在最后都莫名的多加了'\n\r'，结果导致url打不开，一直是404。

当我把后面两个截去之后，图片终于如愿的可以下载下来了，准确的说是爬下来了。

然后我给它写了一个简单的bash文件，将命令都放里面去，实现一键下载，到时候要下豆瓣上另外的图的时候，就稍微改一下代码就可以了。

这个project在github上有，我还没有传上去，等回去了再上传上去。

add: https://github.com/shouchengcheng/doubanImage.git

posted on 2014-04-03 16:27 shouchengcheng 阅读(343) 评论(0) 编辑收藏举报