WebBrowser.Navigate异步运行,使其与其他进程同步的方法

问题描述:有一个网页列表,准备用webBrowser的navigate一个个去访问,然后获取页面内容。但navigate是异步的,一调用之后,不等待页面加载完毕,因为访问网页需要时间,取决于网速,程序就返回循环继续用下一个网址调用navigate,导致navigate不停的被调用,结果是一个网页都打不开,只有列表中最后一个列表,因为没有后续的干扰能被完整加载。

网上发现有人跟我情况一样,提供的方法能解决问题,引述如下:

--------------------------------------------------------------------------------

net(c#)在循环语句中执行WebBrowser.Navigate();方法,每次循环等待网页加载完后继续执行的解决方案.http://www.cnblogs.com/yangxiaohu1/archive/2009/01/06/1370693.html

最近在写一个小程序的时候,遇到这样的需求:

          已知一组网页url地址,想获取每一个网页的html,实际上就是想利用循环语句里面使用WebBrowser来加载每一个网页,然后获取他们的html,

          要实现这个功能,想想应该是件很简单的事情,但是在实际操作中却遇到了问题,因为循环语句和WebBrowser的加载不同步的原因,导致前一个

          前一个网页还没加载完,下一次循环又开始了....最终的结果是WebBrowser只获取到了最后一个页面的html.要解决这个问题,我们要做的就是

          让循环执行完前一次后等待网页加载完,然后执行下一次循环去加载下面的网页.....,按照这个思路,写了以下程序,经测试果然有效.

bool loading = true;   //该变量表示网页是否正在加载.
        string html = string.Empty;
        WebBrowser browser = new WebBrowser();

        public void GetHtml(string[] urls)
        {           
            browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
            foreach (string url in urls)
            {
                loading = true;  //表示正在加载
                  browser.Navigate(url);

                while (loading)
                {
                    Application.DoEvents();//等待本次加载完毕才执行下次循环.
                }
            }
        }

        void browser_Navigated(object sender, WebBrowserNavigatedEventArgs e)
        {
            html = browser.DocumentText;  //获取到的html.

            loading = false;//在加载完成后,将该变量置为false,下一次循环随即开始执行.
        }
上面的问题解决了,下面随之而来的问题是:  有时候加载一张页面的时候,browser_Navigated会执行多次.

查了下网上的资料,原因是页面中含有<iframe></iframe>,每一个<iframe>都会触发一次browser_Navigated,

所以,以上程序可以完善如下:

bool loading = true;   //该变量表示网页是否正在加载.
        string html = string.Empty;
        WebBrowser browser = new WebBrowser();

        public void GetHtml(string[] urls)
        {           
            browser.Navigated += new WebBrowserNavigatedEventHandler(browser_Navigated);
            foreach (string url in urls)
            {
                loading = true;  //表示正在加载
                browser.Navigate(url);

                while (loading)
                {
                    Application.DoEvents();//等待本次加载完毕才执行下次循环.
                }
            }
        }

        int i = 0;
        void browser_Navigated(object sender, WebBrowserNavigatedEventArgs e)
        {
            i++;
            if (i % 3 == 0) // 假设每张页面要执行3次browser_Navigated方法,那么这表示网页全部内容加载完成.(至于这个3要怎么样得到,那是仁者见仁的事情了,呵呵)
            {
                html = browser.DocumentText;  //获取到的html.

                loading = false;//在加载完成后,将该变量置为false,下一次循环随即开始执行.
            }
        }
-----------------------------------------------------------------------------------------------------------------

这位网友在Navigated事件中将loading设为false,而我则改在documentcompleted事件中来判断页面是否加载完毕。当然页面加载完毕的判断要考虑多种情况,如多个frame,对我所处理的情况,用documentcompleted事件比较合适。

下面是我的代码概况:

bool loading = true;

while (articleUrl.Count > 0)//列表不为空
{
       loading = true;
       string url = articleUrl.Dequeue();
       webBrowser1.Navigate(url);
        while (loading)
       {
           Application.DoEvents();
       }
}

******* void webBrowser1_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
        {
            if (webBrowser1.ReadyState == WebBrowserReadyState.Complete)//判断加载完毕
            {
                ............

                loading = false;
            }
        }

另外,数据量大时,Application.DoEvents()的效率,所以这个问题应该用线程同步来解决,或者所谓委托回调。这个还没试过。下面是另一网友对Application.DoEvents()的性能测试

-----------------------------------------------------------------------------------------------------------------

关于Application.DoEvents()
记得第一次使用Application.DoEvents()是为了在加载大量数据时能够有一个数据加载的提示,不至于系统出现假死的现象,当时也没有深入的去研究他的原理是怎样的,结果在很多地方都用上了Application.DoEvents(),今天看到了关于这方面的一些文章,知道我以前有些用法是不当的,有些地方需要慎用Application.DoEvents()。
首先我们先看看在循环比较大的程序中,它的作用还是不错的,起到了一个实时响应的效果,例如:

如果没有加上 DoEvents的话,由于循环时间会比较久就会出现假死的状态,而且程序不能处理其他的事件。而如果加上DoEvents的话就会对文本框的值实时响应,给用户带来较好的用户体验,可是DoEvents也带来了效率上的问题,处理同样的一个事件调用了DoEvents后效率降低了好几倍,这也是为什么要慎用的原因了。下面是我做的一个测试:

for (int q = 0; q < 1000000; q++)
            {
                textBox1.Text = q.ToString();
                Application.DoEvents();//实时响应文本框中的值
           }

******* void button1_Click(object sender, EventArgs e)
        {
            expendTime.start();
            for (int q = 0; q < 100000; q++)
            {
                textBox1.Text = q.ToString();
                Application.DoEvents();
            }
            label2.Text = expendTime.ComputerTime();//计算耗时
        }

        ******* void button2_Click(object sender, EventArgs e)
        {
            expendTime.start();
            for (int q = 0; q < 100000; q++)
            {
                textBox2.Text = q.ToString();
            }
            label3.Text = expendTime.ComputerTime();//计算耗时
        }

执行耗时对比:
从较大数据的循环中可以看出效率是很低的,所以如果能不调用DoEvents就尽量不用。也可以通过别的方法来处理的,例如多线程异步调用等。
MSDN中的定义:
当运行   Windows   窗体时,它将创建新窗体,然后该窗体等待处理事件。该窗体在每次处理事件时,均将处理与该事件关联的所有代码。所有其他事件在队列中等待。在代码处理事件时,应用程序并不响应。例如,当将另一窗口拖到该窗口前面时,该窗口不重新绘制。如果在代码中调用   DoEvents,则您的应用程序可以处理其他事件。例如,如果您有向   ListBox   添加数据的窗体,并将   DoEvents   添加到代码中,那么当将另一窗口拖到您的窗体上时,该窗体将重新绘制。如果从代码中移除   DoEvents,那么在按钮的单击事件处理程序执行结束以前,您的窗体不会重新绘制。  
通常,您在循环中使用该方法来处理消息。
具体可参考这里。

---------------------------------------------------------------------------------------

解决这个问题,我走了很多弯路,去看了WebBrowser的Activex 控件,用axwebBrowser代替webBrowser重写了一遍代码,但两者的navigate都是异步的。后来想用线程同步来解决诶,因为时间紧,不熟悉,所以没弄成。现在凑巧用DoEvents解决了。但最终我想还是 要用线程同步来解决的。比如用信号量,比如ManualResetEvent.

----------------------------------------------------

以上是摘自网络的资料,参考它们的实现,我写了下面的易语言测试代码,可以解决这个问题,虽然效率不好。

1

posted @ 2010-02-14 17:12  猪悟能  阅读(1701)  评论(0编辑  收藏  举报