摘要: 注意: 1.为了避免一个页面被采集两次, 链接去重是非常重要的。 2.写代码之前拟个大纲或画个流程图是很好的编程习惯,这么做不仅可以为你后期处理节省很多时间,更重要的是可以防止自己在爬虫变得越来越复杂时乱了分寸。 3.处理网页重定向 •服务器端重定向,网页在加载之前先改变了 URL; • 客户端重定 阅读全文
posted @ 2019-06-27 17:21 椰汁软糖 阅读(641) 评论(0) 推荐(0) 编辑