抓取AJAX网页的方法-Firefox组件,C#集成

现在AJAX的使用越来越广泛了,但是如果经常写网页抓取程序的人会发现,很多网页内容是通用AJAX进行加载的,实际抓取到的内容寥寥无几。

通过网络到处查找方法,发现用firefox浏览器能够正常把AJAX内容通过HTML呈现出来,那么是否意味着我们获取AJAX网页有希望了?

功夫不负有心人,进一步研究发现,firefox确实有一款C#组件,可以用C#集成到桌面程序中。

1)需要引用一个叫Skybound.Gecko.dll的文件。

2)此外还需要导入一个firefox支持的文件夹,代码如下:

Xpcom.Initialize(@"C:\xulrunner-1.9.1.14.en-US.win32.sdk\xulrunner-sdk\bin");

xulrunner-1.9.1.14.en-US.win32.sdk这个文件夹比较大,压缩后都有二十多M,无法上传,可以去google一下,但是记得一定要搜这个名字,因为我试过其它的有些不能用。

3)直接指定URL就可以访问网站了,可以通过this.geckoWebBrowser1.Navigate(URL);来指定。还有很多功能,自己去发现吧。

 

posted @ 2011-09-25 12:37  pot  阅读(2454)  评论(1编辑  收藏  举报