代码改变世界

C#中的字符串

2006-09-04 21:08  cppguy  阅读(302)  评论(0编辑  收藏  举报

在做网页信息抽取的时候,需要对一些编码搞清楚,这里罗列一些 

c#内部是使用16位的unicode编码(utf-16)来表示的字符串,因此无论中文还是英文都是2字节的。

System.Char结构中一个最有用的方法是GetUnicodeCategory().这个静态的方法将传输给他的字符类型分为30种。一些判断的方法是:Char.IsWhiteSpace(mString,5),Char.IsPunctuation('A'),Char.IsControl(),