python3.5之输出HTML实体字符

出  关①   徐兰

凭山俯海古边州, 旆②影风翻见戍楼。

 马后桃花马前雪,出关争得不回头?

[注]关,指居庸关。②旆(pèi),旌旗。

 

刚刚学习用python写爬虫,实战一下。

抓取出一个网页的内容之后,里面带有很多①这样的特殊字符。

这些字符去掉还不行,必须要显示出来。

一路,百度、google最后终于找到了方法。

特写此博文,记录下来。

使用python中html.unescape()方法就可以输出html中的实体字符

 1 #!/usr/bin/env python
 2 # encoding: utf-8
 3 """
 4 出  关①   徐兰
 5 凭山俯海古边州, 旆②影风翻见戍楼。
 6 马后桃花马前雪,出关争得不回头?
 7 [注]①关,指居庸关。②旆(pèi),旌旗。
 8 """
 9 import html
10 string = '[注]&#9312关,指居庸关。&#9313旆(pèi),旌旗。'
11 print(html.unescape(string))    #[注]①关,指居庸关。②旆(pèi),旌旗。

 

posted @ 2016-03-25 14:57  孤独快乐  阅读(1310)  评论(0编辑  收藏  举报