摘要:
上一篇讨论了web driver对动态网页的抓取与分析,可以很清楚的看出这是一种集中式处理方式,简单说,就是利用服务器,打开一个真正的brower,然后将需要解析的地址交给浏览器,浏览器去解析,然后将结果返回。这样正如网友评论一样,效率上不好,其实我想说的是,如果质提不上去,可以采用量的方式,比如开多线程处理,多开几台机器处理,虽然单个不快,量多后,处理速度就上去了。当然这也不是什么特别好的方法。 先谈谈他的不好之处: 首先,依赖浏览器的驱动,无论使用ie,firefox,chrome,都需要启动其driver,才能进行操作。 其次,对响应结果控制力度不够自由,比如有些网页我需要一个... 阅读全文