摘要: 用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。 需要安装chardet模块 安装是否成功 使用pip list命令查看, 如果有出现chardet说明安装OK 示例: 爬取网易网页时,返回的html页面出现乱码,网易是GB2312编码, 解决如下: 阅读全文
posted @ 2018-03-21 19:57 听障老男孩 阅读(524) 评论(0) 推荐(0) 编辑
摘要: demo01 demo02 demo03 demo04 urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例; 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没有。(这是 urllib 和 urllib2 经常 阅读全文
posted @ 2018-03-21 09:22 听障老男孩 阅读(152) 评论(0) 推荐(0) 编辑