scrapy使用response.body时编码问题

scrapy使用response.body时编码问题

 

摘要:scrapy使用response.body时编码问题。如果在使用responses.body获取数据时,需要将其编码转换成unicode,即如下处理:

response.body返回的结果是byte字节串,其编码是网页的原编码;

如果在使用responses.body获取数据时,需要将其编码转换成unicode,即如下处理:

 

body = response.body.decode('gbk') #假设网页编码是gbk.

 

body = response.body.decode(response.encoding) #即可将其转化成默认的编码

 

这样输出来的内容才正确。也可以直接用response.text这样可以直接是字符串了。

 

 

posted @ 2020-10-30 11:57  小学弟-  阅读(1700)  评论(1编辑  收藏  举报