针对模板页面的数据爬虫实现方法探讨

　　最近研究了一下爬虫的相关内容，在实际爬取过程中，遇到了一类比较棘手的页面样式。

　　首先，该爬取对象是采用模板页面，没有提供api接口，所以无法直接访问。

　　其次，只需要爬取页面中某一标签的数据，例如地址等，但是该页面采取脚本写入的方式来添加数据，即原始下载的页面中直接写的是函数，需要JS执行后才能显示正常数据。

　　例如：

<script>
<!--
function test(){
var a,b,c
a='\u4e1c\u57ce'
b='\u88571'
a+='\u533a\u4e1c\u957f'
b+='6\u53f7'
c='\u5b89'
document.write(a+c+b)
}
test()
//-->
</script>

　　由于标签中的数据需要执行结果，这样，通过正则的数据获取无法得到真正需要的数据。

　　经过研究，我们最后采用了脚本注入的方式来进行数据的爬取，方法虽然有点慢和繁琐，但是可以满足当前的数据获取需求。

　　步骤：

　　1.建立后台数据爬去页面，主要通过HTTP爬去模板页面，然后进行脚本注入，爬去页面执行后的

posted on 2013-03-18 11:35 太平州::裔阅读(277) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

太平州::裔

针对模板页面的数据爬虫实现方法探讨

导航

公告