大虾

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

在爬虫爬取过程中,会爬取到一些html转义字符,如· 、 ” 。这些字符出现在字符串中很违和。python3中内置库html可以帮我们完美处理,以下是使用方法。

image

from html import unescape  

html = '说养·自然医学'  
html = unescape(html)  

print(html)  
>>>  
'说养·自然医学'  

打印结果显示,完美解决。

当然如果要反转义,也很简单,方法如下:

from html import escape  

html = '说养·自然医学'  
html = escape(html)  

print(html)  
>>>  
'说养·自然医学'  

也很完美。

posted on 2022-09-23 09:50  一灯编程  阅读(514)  评论(0编辑  收藏  举报