摘要:
1、作为爬虫组我们交出了爬虫的第一个版本。在这个版本里,爬虫的功能加强了,只会下载网页和PDF,和pipeline小组的需求相对应上,还会往数据库中存入网页的信息,这样做的好处是可以大大的增加爬虫的效率。下面是操作界面:第一个是URL的种子地址,就是要爬取的网页地址。第二栏是要下载的网页数。第三栏是爬虫的线程数接着几个按钮,一个是开始,一个 是重置,一个是退出。下面是pipeline小组刘昕同学的使用过程和感觉:他感觉爬虫很好上手,很容易使用。只要知道爬虫的功能,自己摸索也能使用。其中,他感觉到尽管没有参与爬虫的开发,但是他可以使用爬虫提供的界面来爬取数据了。对于pipeline组,他们想要的 阅读全文