2012 年 11月 8 日随笔档案 - 自由与蓝天

2012年11月8日 #

摘要： 1、健壮性。网络不稳定，网页格式有问题，这些情况都是会发生的。当发生了这些情况是，爬虫不能抛出异常，而后退出，应该做适当的异常处理。2、使用多线程下载技术。否则，一个一个也没下载，使用单线程，在爬取页面上浪费的时间会非常之多。3、持久化问题。包括页面下载的持久化，还有链接的持久化问题。可以分批下载，使用文件存储，或者使用数据库存储，使用sqlite应该会是一个比较好的选择。4、登陆需要Cookie的情形需要加以解决。如何发送完全自己定制的HTTP请求呢?5、解决爬虫的队列保存问题。如果一次没有下载完，则下次可以接着下载。维护两个列表? 已完成列表和未完成列表？6、代码重用问题。可以把一些阅读全文

posted @ 2012-11-08 13:58 自由与蓝天阅读(404) 评论(2) 推荐(0) 编辑

自由与蓝天

公告