摘要:
http://www.cnblogs.com/KissKnife/archive/2008/03/23/1118423.html 阅读全文
摘要:
1.抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除... private static string RemoveSpecifyHtml(string ctx) { string[] holdTags = { "a&quo 阅读全文