WebBrowser - 想说爱你不容易
最近项目中需要在 winform 中加载 xhtml 文件并修改,颇废了一些周折,特发文纪念,同时讨论下有没有更好的办法。
在winform中加载网页首先想到的(其实目前也只能使用)当然是使用 WebBrowser 控件,但是。。。这个控件真不太好用。
1. xp 下不支持 xhtml。 使用 Navigate 方法加载本地的一个 xhtml 文件, 居然弹出下载窗口。
(win7 下正常,但是现在xp不还是王道嘛)
肿么办:将文件名改为 html 就行了, 处理完毕后再把文件改回 xhtml。
2. 使用 WebBrowser 打开后, 再通过 document.documentElement.outerHTML 取得的 html 代码中所有的 attribute 的引号全丢失了
例如源文件为 <div class="top" id="my_edit" >
打开后就变成 <div class=top id=my_edit>
3. 同第2点,html 代码的标签全部变成大写
例如源文件为 <div id="my_edit" > </div>
打开后就变成 <DIV id="my_edit"> </DIV>
4. 同第2点,html 代码中的 img 标签自动变成非闭合
例如源文件为 <img src="images/chjy.gif" ></img>
打开后就变成 <IMG src="images/chjy.gif">
5. 同第2点,html 代码中的 BR 标签全部变成非闭合
例如源文件为 <br/>
打开后就变成 <BR>
以上的 2,3,4,5 点在 xhtml 下都是属于不规范的代码,根本无法打开,没办法,只能一个个用正则修改。
附上代码:
html = Regex.Replace(html, @"(?<=\</?)\w+", delegate(Match m)
{
return m.Value.ToLower();
});
//属性值加上双引号
html = Regex.Replace(html, @"=([^""]+?)([\s>])", delegate(Match m)
{
return "=\"" + m.Groups[1].Value + "\"" + m.Groups[2].Value;
});
//img闭合
html = Regex.Replace(html, "(?<=\\<img[^>]+)>", delegate(Match m)
{
return "/>";
}, RegexOptions.IgnoreCase);
//br 闭合
html = Regex.Replace(html, "<BR>", "<br/>", RegexOptions.IgnoreCase);
修改后勉强可以用了,但是不知道有没有后遗症啊。
高手们说说,我这样的作法对吗?