2012 年 11月 6 日随笔档案 - 一线码农

2012年11月6日

摘要：在ajax横行的年代，很多网页的内容都是动态加载的，而我们的小爬虫抓取的仅仅是web服务器返回给我们的html，这其中就跳过了js加载的部分，也就是说爬虫抓取的网页是残缺的，不完整的，下面可以看下博客园首页从首页加载中我们看到，在页面呈现后，还会有5个ajax异步请求，在默认的情况下，爬虫是抓取不到这些ajax生成的内容的，这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面，目前内核引擎三足鼎立。Trident：也就是IE内核，WebBrowser就是基于该内核，但是加载性内比较差。Gecko： FF的内核，性能相对Trident较好。WebKit: Safari和Chrome... 阅读全文

posted @ 2012-11-06 00:00 一线码农阅读(36663) 评论(23) 推荐(5) 编辑

公告