摘要: 由于在在WebClient中,默认支持对CSS,JavaScript的解析,因此会总是会出现很多错误信息,并且执行速度也很慢。 因此,我们可以选择关闭掉WebClient对CSS,JavaScript的解析。 使用WebClient#getOption()方法,返回一个WebClientOption 阅读全文
posted @ 2017-07-29 20:24 Ouka傅 阅读(1182) 评论(1) 推荐(0) 编辑
摘要: htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。 项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器。 采用的是Rhinojs引擎。模拟js运行。 使用htmlunit抓取网页大概可以分为以下几个步骤: 1 阅读全文
posted @ 2017-07-29 15:01 Ouka傅 阅读(7673) 评论(0) 推荐(0) 编辑