摘要: http://www.cnblogs.com/KissKnife/archive/2008/03/23/1118423.html 阅读全文
posted @ 2013-07-18 11:01 $我们都是好孩子$ 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1.抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.下面是一个简单的函数,把要保留的TAG串起来,生成一个正则表达式,然后把不需要的TAG删除... private static string RemoveSpecifyHtml(string ctx) { string[] holdTags = { "a&quo 阅读全文
posted @ 2013-07-18 10:19 $我们都是好孩子$ 阅读(1203) 评论(0) 推荐(0) 编辑