python爬虫爬取网页中文处理

在爬虫爬取网页数据时有时会遇到中文

此时不要用requests的text方法，用content方法

#print(ret.text)
print(ret.content)

此时中文转变成了16进制，我们用decode("gbk")方法将其转化为中文

ret.content.decode("gbk")

注意:如果不加"gbk"会报错

　　UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 295: invalid continuation byte

此时抓取的数据中的中文已经正常显示

posted @ 2023-03-14 19:37 腹肌猿阅读(357) 评论(0) 编辑收藏举报

刷新页面返回顶部