半夜ATM机前看书的那位

导航

2011年8月24日 #

爬虫 ajax网页(Cobra)

摘要: http://lobobrowser.org/cobra.jsp有js逻辑的页面,对网络爬虫的信息抓取工作造成了很大障碍。DOM树,只有执行了js的逻辑才可以完整的呈现。而有的时候,有要对js修改后的 dom树进行解析。在搜寻了大量资料后,发现了一个开源的项目cobra。cobra支持JavaScript引擎,其内置的JavaScript引擎是 mozilla下的 rhino,利用rhino的API,实现了对嵌入在html的JavaScript的解释执行。测试用例:js.html<html><title>test javascript</title>< 阅读全文

posted @ 2011-08-24 16:38 zhizhesky 阅读(976) 评论(0) 推荐(0) 编辑