今天看了一下网络爬虫。看了很多博主的博文教程,自己也跟着教程走了一遍。
参考的是 http://kylen314.blog.com/2013/10/01/scrrapy_note1/ 这个博主的博文。
内容通俗易懂,但是首先要先在电脑上安装一个scrapy。
根据网上介绍,它是一个很流弊的爬虫框架,在网上有很多教程教你如何打这个环境。不过根据我自身试验,我发现一种最简单的。
首先我用的是ubuntu12.04,我按照它官网手册安装,非常方便,只要sudo apt-get install 就可以搞定,当然前提是要添加相应的源。
具体操作可以看这里:http://doc.scrapy.org/en/latest/topics/ubuntu.html#topics-ubuntu
安装完了之后就可以照着教程走了。
一开始都是很顺利的,直到最后一个附加的程序。
我不知道是我系统的问题还是什么原因,我一直download不下来图片,然后我仔细看了一下记录。发现scrapy从文件读到的url地址,在最后都莫名的多加了'\n\r',结果导致url打不开,一直是404。
当我把后面两个截去之后,图片终于如愿的可以下载下来了,准确的说是爬下来了。
然后我给它写了一个简单的bash文件,将命令都放里面去,实现一键下载,到时候要下豆瓣上另外的图的时候,就稍微改一下代码就可以了。
这个project在github上有,我还没有传上去,等回去了再上传上去。
add: https://github.com/shouchengcheng/doubanImage.git