2012年12月9日
摘要: 1、作为爬虫组我们交出了爬虫的第一个版本。在这个版本里,爬虫的功能加强了,只会下载网页和PDF,和pipeline小组的需求相对应上,还会往数据库中存入网页的信息,这样做的好处是可以大大的增加爬虫的效率。下面是操作界面:第一个是URL的种子地址,就是要爬取的网页地址。第二栏是要下载的网页数。第三栏是爬虫的线程数接着几个按钮,一个是开始,一个 是重置,一个是退出。下面是pipeline小组刘昕同学的使用过程和感觉:他感觉爬虫很好上手,很容易使用。只要知道爬虫的功能,自己摸索也能使用。其中,他感觉到尽管没有参与爬虫的开发,但是他可以使用爬虫提供的界面来爬取数据了。对于pipeline组,他们想要的 阅读全文
posted @ 2012-12-09 23:27 百年coding 阅读(193) 评论(0) 推荐(0) 编辑