自由与蓝天

昔日高山流水,快剑江湖,长街奔马。 今日谷歌百度,种菜发贴,写写代码。

博客园 首页 新随笔 联系 订阅 管理

2012年11月8日 #

摘要: 1、 健壮性。网络不稳定,网页格式有问题,这些情况都是会发生的。当发生了这些情况是,爬虫不能抛出异常,而后退出,应该做适当的异常处理。2、 使用多线程下载技术。否则,一个一个也没下载,使用单线程,在爬取页面上浪费的时间会非常之多。3、持久化问题。包括页面下载的持久化,还有链接的持久化问题。可以分批下载,使用文件存储,或者使用数据库存储,使用sqlite应该会是 一个比较好的选择。4、登陆需要Cookie的情形需要加以解决。如何发送完全自己定制的HTTP请求呢?5、解决爬虫的队列保存问题。如果一次没有下载完,则下次可以接着下载。维护两个列表? 已完成列表和未完成列表?6、代码重用问题。可以把一些 阅读全文
posted @ 2012-11-08 13:58 自由与蓝天 阅读(404) 评论(2) 推荐(0) 编辑