html 处理之 w3lib
w3lib 是 scrapy 的基础插件,用来处理html,清理文本带有HTML标签的数据;
from w3lib.html import remove_tags, replace_tags
remove_tags(text, which_ones=(), keep=(), encoding=None) # 去除所有HTML标签
replace_tags(text, token='', encoding=None) # 替换所有HTML标签
w3lib.http.headers_raw_to_dict(headers_raw) # 原始头转换成字典