C#中的字符串
2006-09-04 21:08 cppguy 阅读(302) 评论(0) 编辑 收藏 举报在做网页信息抽取的时候,需要对一些编码搞清楚,这里罗列一些
c#内部是使用16位的unicode编码(utf-16)来表示的字符串,因此无论中文还是英文都是2字节的。
System.Char结构中一个最有用的方法是GetUnicodeCategory().这个静态的方法将传输给他的字符类型分为30种。一些判断的方法是:Char.IsWhiteSpace(mString,5),Char.IsPunctuation('A'),Char.IsControl(),