C#多线程使用webbrowser实现采集动态网页的爬虫机器人

今天在园子里看到 学院派的驴 写的 巧用C#webbrowser以及Application.DoEvents()实现采集动态网页的爬虫机器人

其实之前我也是用类似的方法来抓取需要登陆的web页面,和一些动态加页的面页

我今天要说的是如何实现多线程使用webborwser采集页面

其中我用到了一个WeiFenLuo.winFormsUI.Docking.dll,是一个开源的组建

下载地址:https://github.com/dockpanelsuite/dockpanelsuite/downloads

关于这个组件,园子里已经有前辈做出详细的使用方法,在此我不再多做说明

http://www.cnblogs.com/wuhuacong/archive/2009/07/09/1520082.html

在MainForm窗体中添加一个WeiFenLuo控件,并且把MainForm窗体的IsMdiContainer属性设置成True

并且添加addWebForm方法,动态添加子窗体

public void addWebForm(string s)
{
    if (this.InvokeRequired)
    {
        this.BeginInvoke(new OneStringParmenters(addWebForm), s);
    }
    else
    {
        ChildForm f2 = new ChildForm();
        f2.Text = s;
        webForm.Add(s, f2);
        f2.Show(dockPanel1);
    }
}

在ChildForm窗体中添加一个Webborwser控件

并且添加打开页面方法

public delegate void OneStringParmenters(string str);//1个string参数委托
public void Navigate(string url)
{
    if (this.InvokeRequired)
    {
        this.BeginInvoke(new OneStringParmenters(Navigate), url);
    }
    else
    {
        webBrowser1.Navigate(url);
    }
}

 以及读取页面html方法

private string strHtmlLeng = "";

private delegate void NoParameters();//无参数委托;
public string StrHtmlLeng
{
    get
    {
        if (this.InvokeRequired)
        {
            IAsyncResult iar = this.BeginInvoke(new NoParameters(GetHtmlLeng));
            while (!iar.IsCompleted)
            {
                System.Threading.Thread.Sleep(0);
            }
        }
        else
        {
            GetHtmlLeng();
        }
        return strHtmlLeng;
    }
}

private void GetHtmlLeng()
{
    strHtmlLeng = webBrowser1.DocumentText;
}

添加一个多线程方法,用来模拟多线程打开页面,并且读取html

public static void OpenWebPage(object strUrl)
{
    DateTime dt = DateTime.Now;
    string u = strUrl.ToString();
    IAsyncResult iar = Program.form.BeginInvoke(new OneStringParmenters(Program.form.addWebForm), u);
    while (!iar.IsCompleted)
    {
        System.Threading.Thread.Sleep(0);
    }
    int n = Program.form.webForm.Count;
    Program.form.webForm[u].Navigate(u);
    System.Threading.Thread.Sleep(TimeSpan.FromMinutes(1));
    string strHtml = Program.form.webForm[u].StrHtmlLeng;
    //把html输出到本地e盘,当采集信息时,可以直接操作html
    System.IO.StreamWriter sw = new StreamWriter(string.Format("e:/{0}.txt", u));
    sw.Write(string.Format("开始时间:{0}\r\n 结束时间:{1}\r\n 打开信息:{2}", dt.ToString("G"), DateTime.Now, strHtml));
    sw.Dispose();
}

好了.现在使用多线程来执行OpenWebPage方法,就可以模拟多线程操作Webborwser了

这里是我测试写的小程序

https://files.cnblogs.com/jiangming/TestThreadWebBrowser.zip

posted @ 2012-09-11 23:14  只会造轮子  阅读(6666)  评论(1编辑  收藏  举报