python爬虫爬取网页中文处理

在爬虫爬取网页数据时有时会遇到中文

 

 此时不要用requests的text方法,用content方法

#print(ret.text)
print(ret.content)

此时中文转变成了16进制,我们用decode("gbk")方法将其转化为中文

ret.content.decode("gbk")

注意:如果不加"gbk"会报错

  UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 295: invalid continuation byte

 

 此时抓取的数据中的中文已经正常显示

 

posted @ 2023-03-14 19:37  腹肌猿  阅读(323)  评论(0编辑  收藏  举报