摘要:
1、 健壮性。网络不稳定,网页格式有问题,这些情况都是会发生的。当发生了这些情况是,爬虫不能抛出异常,而后退出,应该做适当的异常处理。2、 使用多线程下载技术。否则,一个一个也没下载,使用单线程,在爬取页面上浪费的时间会非常之多。3、持久化问题。包括页面下载的持久化,还有链接的持久化问题。可以分批下载,使用文件存储,或者使用数据库存储,使用sqlite应该会是 一个比较好的选择。4、登陆需要Cookie的情形需要加以解决。如何发送完全自己定制的HTTP请求呢?5、解决爬虫的队列保存问题。如果一次没有下载完,则下次可以接着下载。维护两个列表? 已完成列表和未完成列表?6、代码重用问题。可以把一些 阅读全文
2012年11月8日 #