架构深渊

慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

ASP.NET中用户输入文本的HTML解析办法

Posted on 2008-09-17 22:36  chen eric  阅读(324)  评论(0编辑  收藏  举报
网页中用TextBox让用户输入文本,然后存入数据库,再从数据库中读出显示在页面上。常常这样做会遇到不少问题,因为TextBox实际上是一个Windows组件,和网页显示标记如:<p>,<td>,<div>等,对字符的解析方法是不同的。比如前者的换行标记为“"r"n”,而后者为“<br>”。这就带来一个转换的问题。

    在做转换之前,先来考虑几个问题:

1、 TextBox用“"r"n”来标记换行而网页中以“<br>”标记

2、 网页中连续的空格当做一个空格处理,比如“a b    c”将会显示“a b c

3、 用户输入特殊字符比如:“<,&,&nbsp;,&lt;”,这些都是网页中有特殊意义的字符,会被解析,而用户输入的目的当然是不希望被解析。

现在来解决这几个问题,有一种解决办法是在显示的时候仍然用TextBox去显示,这样就不用做任何转换,只要把TextBox.ReadOnly设为true,这样在一定程度上能满足要求。但是往往为了网页的美观,这样做是不可取的。比较好的办法是去解析用户输入的字符串,可以做这样的转换:

第一步:

<      à&lt;

&      à&amp;

&nbsp;à&amp;nbsp;

……(此处的省略号后文有说明)

第二步:

      à&nbsp;

"r"n à<br>

这里必须分两步转换,因为如果你先做第二步转换的话混把用户输入的特殊字符串和由转换而的的特殊字符串混淆,比如:

用户输入:a b   c&nbsp;d

第二步转换:a&nbsp;b&nbsp;&nbsp;&nbsp;c&nbsp;d

第一步转换:a&amp;nbsp;b&amp;nbsp;&amp;nbsp;&amp;nbsp;c&amp;nbsp;d

可以看到,经过第一次转换后已经无法分辨用户输入的“&nbsp;”和转换而来的“&nbsp;”,在做第二次转换的时候就会统一处理就会出错。结果显示:a&nbsp;b&nbsp;&nbsp;&nbsp;c&nbsp;d

如果严格按照第一步,第二步的转换顺序来转换就不会出现这个问题。

把转换后的字符串存入数据库,在显示的时候直接把从数据库读出的字符串给HTML组件赋值,比如:

//这里假设temp是从数据库中读出来的,这里演示TableHtmlTable其他的控件类似

//显示的效果是:<a b

 

//Table1Web控件

String temp = “&lt;a&nbsp;b”;

Table1.Rows[0].Cells[0].Text = temp;

//Table2HTML控件

Table2.Rows[0].Cells[0].InnerHtml = temp;

HtmlTable有两个相似的属性“InnerHtml,InnerText”,介绍一下这两个属性的区别:

InnerHtml:显示的时候会对传入的值进行HTML解析,就像上面的例子。

InnerText:显示的时候不会对传入的值新型解析,直接把传入的值显示出来。比如把上面的例子改成:Table2.Rows[0].Cells[0].InnerText = temp;那么显示的效果将会变成:&lt;a&nbsp;b

虽然这两个属性用起来很方便,似乎可以满足平时的使用需求,但是InnerText有两个问题:

1、 无法标记换行,不管是“"r"n”还是“<br>”都不是换行标记

2、 连续的空格仍然只显示一个空格。

所以想不转换字符串而直接用InnerText是不可取的。但是转换是个非常繁琐的过程,因为HTML的特殊标记非常多。值得庆幸的是ASP.NET提供了HttpServerUtil类,该类提供了HtmlEncode()HtmlDecode()方法,这里我们只用到HtmlEncode()方法。我们就可以这样来转换:

//"r"n”在TextBox中硬回车的时候会自动添上

string temp = “a b   c&nbsp;d"r"ne<”;

//ServerPage类的一个属性,也就是说任何aspx页面的codebehind中都是可以使用的

//因为aspx页面都是继承Page类的。

temp = Server.HtmlEncode(temp);

temp = temp.Replace(" ","&nbsp;");

temp = temp.Replace(""r"n","<br>");

Table1.Rows[0].Cells[0].Text = temp;

Table2.Rows[0].Cells[0].InnerHtml = temp;

//显示效果:a b   c&nbsp;d

//        e<

到这里你也许会想一个问题,万一用户输入“"r"n”怎么办?不用担心,网页组件的设计者已经考虑到了这个问题,因为用户输入的“"r"n”会被自动转换成“""r""n”。