2010年9月12日

正则表达式删除指定的HTML 标签

摘要: 抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分.正则表达式里,判断 包含某些字符串 是非常容易理解的,但是如何判断 不包含某些字符串 (是字符串... 阅读全文

posted @ 2010-09-12 20:48 阿栋.c# 阅读(927) 评论(0) 推荐(2) 编辑

导航