针对模板页面的数据爬虫实现方法探讨

  最近研究了一下爬虫的相关内容,在实际爬取过程中,遇到了一类比较棘手的页面样式。

  首先,该爬取对象是采用模板页面,没有提供api接口,所以无法直接访问。

  其次,只需要爬取页面中某一标签的数据,例如地址等,但是该页面采取脚本写入的方式来添加数据,即原始下载的页面中直接写的是函数,需要JS执行后才能显示正常数据。

  例如:

  

<script>
<!--
function test(){
var a,b,c
a='\u4e1c\u57ce'
b='\u88571'
a+='\u533a\u4e1c\u957f'
b+='6\u53f7'
c='\u5b89'
document.write(a+c+b)
}
test()
//-->
</script>

  由于标签中的数据需要执行结果,这样,通过正则的数据获取无法得到真正需要的数据。

  经过研究,我们最后采用了脚本注入的方式来进行数据的爬取,方法虽然有点慢和繁琐,但是可以满足当前的数据获取需求。

  步骤:

  1.建立后台数据爬去页面,主要通过HTTP爬去模板页面,然后进行脚本注入,爬去页面执行后的

posted on 2013-03-18 11:35  太平州::裔  阅读(282)  评论(0编辑  收藏  举报