Python 爬虫 解决escape问题

爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是    

亞洲私人珍&#34255

;賣,令仝好分享他為此

所傾注的心血與熱愛。

 

爬虫源码是:

复制代码
url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text
except:
    result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
    result = requests.get(url=url).text

复制代码

如何处理?

复制代码
  
url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text
except:
    result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
    result = requests.get(url=url).text

from HTMLParser import HTMLParser result_HTMLParser = HTMLParser().unescape(result) print result_HTMLParser
复制代码

打印原始网页代码

发现编码格式正常

 

 

复制代码
html = '<abc>'
用Python可以这样处理:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
如果还想转回去,可以这样:

import cgi
html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'
复制代码

 

posted @   淋哥  阅读(3473)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
点击右上角即可分享
微信分享提示