WebBrowser - 想说爱你不容易

最近项目中需要在 winform 中加载 xhtml 文件并修改,颇废了一些周折,特发文纪念,同时讨论下有没有更好的办法。

 

在winform中加载网页首先想到的(其实目前也只能使用)当然是使用 WebBrowser 控件,但是。。。这个控件真不太好用。

1. xp 下不支持 xhtml。 使用 Navigate 方法加载本地的一个 xhtml 文件, 居然弹出下载窗口。

    (win7 下正常,但是现在xp不还是王道嘛)

   肿么办:将文件名改为 html 就行了, 处理完毕后再把文件改回 xhtml。

2. 使用 WebBrowser 打开后, 再通过 document.documentElement.outerHTML 取得的 html 代码中所有的 attribute 的引号全丢失了

    例如源文件为 <div class="top" id="my_edit" > 

    打开后就变成 <div class=top id=my_edit>

3. 同第2点,html 代码的标签全部变成大写

    例如源文件为 <div id="my_edit" > </div>
    打开后就变成 <DIV id="my_edit"> </DIV>

4. 同第2点,html 代码中的 img 标签自动变成非闭合

    例如源文件为 <img src="images/chjy.gif" ></img>

    打开后就变成 <IMG src="images/chjy.gif"> 

5. 同第2点,html 代码中的 BR 标签全部变成非闭合

    例如源文件为 <br/>

    打开后就变成 <BR> 


以上的 2,3,4,5 点在 xhtml 下都是属于不规范的代码,根本无法打开,没办法,只能一个个用正则修改。

附上代码:

//标签全部变小写
                html = Regex.Replace(html, @"(?<=\</?)\w+"delegate(Match m)
                {
                    return m.Value.ToLower();
                });
                //属性值加上双引号
                html = Regex.Replace(html, @"=([^""]+?)([\s>])"delegate(Match m)
                {
                    return "=\"" + m.Groups[1].Value + "\"" + m.Groups[2].Value;
                });
                //img闭合
                html = Regex.Replace(html, "(?<=\\<img[^>]+)>"delegate(Match m)
                {
                    return "/>";
                }, RegexOptions.IgnoreCase);
                //br 闭合

                html = Regex.Replace(html, "<BR>""<br/>", RegexOptions.IgnoreCase); 

 

修改后勉强可以用了,但是不知道有没有后遗症啊。

 

高手们说说,我这样的作法对吗?

posted @ 2012-06-28 16:21  在天空飞翔  阅读(760)  评论(3编辑  收藏  举报