2012 年 12月 9 日随笔档案 - 百年coding

2012年12月9日

摘要： 1、作为爬虫组我们交出了爬虫的第一个版本。在这个版本里，爬虫的功能加强了，只会下载网页和PDF，和pipeline小组的需求相对应上，还会往数据库中存入网页的信息，这样做的好处是可以大大的增加爬虫的效率。下面是操作界面：第一个是URL的种子地址，就是要爬取的网页地址。第二栏是要下载的网页数。第三栏是爬虫的线程数接着几个按钮，一个是开始，一个是重置，一个是退出。下面是pipeline小组刘昕同学的使用过程和感觉：他感觉爬虫很好上手，很容易使用。只要知道爬虫的功能，自己摸索也能使用。其中，他感觉到尽管没有参与爬虫的开发，但是他可以使用爬虫提供的界面来爬取数据了。对于pipeline组，他们想要的阅读全文

posted @ 2012-12-09 23:27 百年coding 阅读(196) 评论(0) 推荐(0) 编辑