网页抓取之WebBrowser

    最近研究了一下关于网页信息的批量分析与抓取，感觉还是有一些体会的。
    我们知道，web程序的设计可分为静态网页和动态网页，静态网页基本就是纯的html，动态网页在服务器端执行，返回结果到浏览器端，从某种意义上本地浏览器内的网页都是静态的。对于开放的，无需验证的网页，只要配合网站地址和正则表达式简单地使用MSHTML，就可以远程抓取网页连接，内容等各种信息。似乎看网上一些文章，搜索引擎的基本功能就可以这样实现。最近还看到Zpoo漫游网的一个例子（http://163.zpoo.com/），他们可以抓取163相册的图片地址（本来有一款可以批量下载163相册的工具，但163改版后就不能用了）。不过以上这一切都要在一个前提下，就是网页不需验证，不用提供用户名和密码。.net中的net库中有一些类向webclient、webrequest之类，提供了http的访问服务，不过功能有限，想要在连接后面这样写：http://xxx.xxx.xxx/xxx.asp?username=tcpch&password=123456再去连接某个地址获取信息是行不通的，不知道哪位高手有什么解决方案，可能我没有用对相应的类库以致饶了弯路。
    不过既然浏览器端可以访问，我们就有办法。于是就想到了webbrowser控件。大致想法是用webbrowser先连网页（webbrowser里可以解决登陆验证问题），抽取出连接后，继续请求同一网站的其他页面，验证由webbrowser做，这样就可以批量抽取了，至于在线抓数据还是下载后再抓，这之中又有不同，今天先写到这里，下次继续。

posted on 2006-04-22 14:37 tcpch 阅读(10133) 评论(9) 收藏举报