去除HTML中的标签内容

采集后的数据都带有'<>'html标签：

<img src="http://i4.hdfimg.com/www/images/giftrans/3d/da/7b/18414.gif" border="0"/>科研最早和一项教学为一体的现代化综合师从性省级医院

在这里只要将所有带<>去除即可：

dr = re.compile(r'<[^>]+>',re.S)

dd = dr.sub('',Html)

完整的python脚本：

第一个函数：将一个字段中的刮号去除

第二个函数：将html中的所有标签去除

posted @ 2017-04-27 23:37 kingrain 阅读(2271) 评论(0) 编辑收藏举报

刷新页面返回顶部

创业无限好