Python 爬虫编码格式问题 gb2312转换utf8

遇到的问题是：爬取网页得到的结果如下（部分）里面的中文出现乱码。

<!DOCTYPE html>
<html lang='zh-CN'>
<head>
<meta charset='gb2312'>
<meta content='IE=edge' http-equiv='X-UA-Compatible'>
<title>2017Äê11ÔÂ10ÈÕÃâ·Ñ´úÀíip µÚ1Ò³</title>
<meta name="keywords" content="´úÀíip£¬´úÀíip¼ì²â£¬´úÀíipÑéÖ¤£¬¿ÉÓÃ´úÀíip£¬×îÐÂ´úÀíip£¬½ñÈÕ¿ÉÓÃ´úÀíip£¬Ãâ·Ñ´úÀíip">
<meta name="description" content="ip181ÊÇÒ»¼Ò×¨Îª´úÀíipÊ¹ÓÃÕß´òÔìµÄ´úÀíip¼ì²âÆ½Ì¨£¬ÕâÀï²»½öÌá¹©×¨ÒµµÄ´úÀíipÑéÖ¤·þÎñ£¬»¹ÎªÄúÌá¹©×îÐÂµÄÃâ·Ñ´
úÀíip£¬ÊµÊ±¸üÐÂ´úÀíip¡£">
<link href="/ip181.css" media="all" rel="stylesheet" />
</head>
<body>
<style>

.gx{
    font-size:14px;color:#666666;margin-left:10px;font-weight:100;

这是

print response.encoding   

输出结果是   ISO-8859-1


使用的方法是

print response.text.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(response.text)[0])

结果：

<!DOCTYPE html>
<html lang='zh-CN'>
<head>
<meta charset='gb2312'>
<meta content='IE=edge' http-equiv='X-UA-Compatible'>
<title>2017年11月10日免费代理ip 第1页</title>
<meta name="keywords" content="代理ip，代理ip检测，代理ip验证，可用代理ip，最新代理ip，今日可用代理ip，免费代理ip">
<meta name="description" content="ip181是一家专为代理ip使用者打造的代理ip检测平台，这里不仅提供专业的代理ip验证服务，还为您提供最新的免费代理ip，实时更新代理ip。">
<link href="/ip181.css" media="all" rel="stylesheet" />
</head>
<body>
<style>

posted @ 2017-11-10 15:32 淋哥阅读(2080) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术

公告

昵称：淋哥
园龄： 8年10个月
粉丝： 229
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

英雄莫问出处,富贵当思缘由

Python 爬虫编码格式问题 gb2312转换utf8

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (338)

随笔档案 (452)

文章分类 (6)

文章档案 (19)

阅读排行榜

评论排行榜

推荐排行榜

最新评论