通用的解决中文乱码的两种方法(爬虫)

第一种:对requests.get(url)获取的整体内容进行手动设定编码格式
response = requests.get(url)
response.encoding = ‘utf-8’
page_text = response.text

第二种:对出现乱码的变量进行手动设定编码

tree = etree.HTML(page_text)
li_list = tree.xpath(‘xpath表达式’)
for li in li_list:
img_name = li.xpath(‘xpath表达式’)
img_name = img_name.encode(‘iso-8859-1’).decode(‘gbk’)


__EOF__

本文作者与鹿逐秋
本文链接https://www.cnblogs.com/wangyueping/p/16015648.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   与鹿逐秋  阅读(634)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示