08 2011 档案

摘要:利用正则表达式去掉网页中的HTML 标签 正则表达式HTML 抓取某网页的数据后(比如描述),如果照原样显示的话,可能会因为它里面包含没有闭合的HTML标签而打乱了格式,也可能它里面用了比较让人 "费解" 的HTML标签,把预订的格式搅乱. 如果全盘删除里面的 HTML 标签,可能会造成阅读上的困难(比如 a, img 这些标签), 最好是删除一部分,保留一部分. 正则表达式里,判断 包含某些字符串 是非常容易理解的,但是如何判断 不包含某些字符串 (是字符串,不是字符,是某些,不是某个) 确实是个费解的事. <(?!((/?\s?li)|(/?\s?ul)|(/?\ 阅读全文
posted @ 2011-08-02 15:59 洗碗心得 阅读(636) 评论(0) 推荐(0) 编辑