摘要: urllib简单应用html=urllib.request.urlopen(域名/网址).read().decode('utf-8') > >urlopen-->获取源码 >read()-->读取内容 >decode('utf-8')-->将字节转换为字符串页面的具体内容可以用正则获取 os+url 阅读全文
posted @ 2018-01-10 09:15 我爱在伊甸园吃苹果 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求 那么我们先来说说不需要用户登录的方法 这种方式直接可以获取源码,用get的请求方式 登录的方式 获取这种页面时,我们首先要了解整个登录过程,一般登录过程是,当用户第一次访问时,会自动在浏览器生成cookie文 阅读全文
posted @ 2018-01-09 12:51 我爱在伊甸园吃苹果 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 内容编码 字码发展1.ascii(只识别英文)8位就可以表示所有英文,字符数字,1个字节就可以 2.unicode(万国码)最少两个字节中文三个字节 3.utf-8万国码存在空间浪费英文8位中文24位 PYTHON 3默认就是UTF-8编码 不需加#coding:utf-8 编程和解码 utf-8或 阅读全文
posted @ 2018-01-05 10:35 我爱在伊甸园吃苹果 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 爬虫是什么? 我个人觉得用简单通俗的话来说就是在浏览网页的过程中将有价值的信息下载到本地硬盘或者是储存到数据库中的行为。 爬虫的基础认知 可以参考此链接:https://www.imooc.com/article/15028 阅读全文
posted @ 2018-01-02 18:48 我爱在伊甸园吃苹果 阅读(274) 评论(0) 推荐(0) 编辑