为html瘦身的pythonl函数

背景

需要缓存html源码以备解析用，且需要去除与解析结果无关的代码以节省存储；可根据实际需要扩展。

代码

def slimHtml(html):
	''' \u4efa为“仺”字，页面出现几率极低 '''
	html = re.sub(ur'<script[^\u4efa]*?</script>', '', html)
	html = re.sub(ur'<noscript[^\u4efa]*?</noscript>', '', html)
	html = re.sub(ur'<style[^\u4efa]*?</style>', '', html)
	html = re.sub(r'<link .*?>', '', html)
	html = re.sub(r' class=""', '', html)
	html = re.sub(r' alt=""', '', html)
	html = re.sub(r' title=""', '', html)
	# 注释
	html = re.sub(ur'<!--[^\u4efa]*?-->', '', html)
	# 掐头
	html = re.sub(re.compile(r'^\s+', re.M), '', html)
	# 去尾
	html = re.sub(r'\s+\n', '\n', html)
	# 并行
	html = re.sub(r'\n', '', html)
	return html

posted on 2017-01-22 11:26 忧伤的南瓜阅读(370) 评论(0) 收藏举报

刷新页面返回顶部

为html瘦身的pythonl函数

背景

代码

导航

公告