Python中如何进行HTML特殊字符与Unicode代码的转换

在处理HTML内容的时候经常会遇到&# 1405;&# 816;、<、> 这样的怪字符,一般称为HTML特殊符号,而&#后面加一串数值,则是网页中Unicode的表示形式。

HTML特殊符号编码对照表

通过cgi模块中的escape函数可以将常见的特殊符号转换为HTML的表现形式,但要转换回来,cgi模块并没有提供unescape这样的函数。

在网上找到一篇介绍如何进行这种反向转换的文章:Escaping HTML

另外,如果得到的HTML代码中含有&# 1405;&# 816;这样的Unicode代码,可以使用unichr函数来进行转换:

代码
def unescape_word(s):
    words 
= re.findall("&#(\d+);", s)
    
if words:
        result 
= unicode(s, "gb18030")
        u 
= unicode()
        
for word in map(int, words):
            h, l 
= word / 0x100, word % 0x100
            u 
= unichr(l * 0x100 + h)
            result 
= result.replace("&#%s;" % word, u)
        result 
= result.encode("gb18030")
    
else:
        result 
= s
    
return result

 

 

posted @ 2010-07-27 15:32  叮叮当当  阅读(1979)  评论(0编辑  收藏  举报