针对模板页面的数据爬虫实现方法探讨
最近研究了一下爬虫的相关内容,在实际爬取过程中,遇到了一类比较棘手的页面样式。
首先,该爬取对象是采用模板页面,没有提供api接口,所以无法直接访问。
其次,只需要爬取页面中某一标签的数据,例如地址等,但是该页面采取脚本写入的方式来添加数据,即原始下载的页面中直接写的是函数,需要JS执行后才能显示正常数据。
例如:
<script> <!-- function test(){ var a,b,c a='\u4e1c\u57ce' b='\u88571' a+='\u533a\u4e1c\u957f' b+='6\u53f7' c='\u5b89' document.write(a+c+b) } test() //--> </script>
由于标签中的数据需要执行结果,这样,通过正则的数据获取无法得到真正需要的数据。
经过研究,我们最后采用了脚本注入的方式来进行数据的爬取,方法虽然有点慢和繁琐,但是可以满足当前的数据获取需求。
步骤:
1.建立后台数据爬去页面,主要通过HTTP爬去模板页面,然后进行脚本注入,爬去页面执行后的