摘要: 什么是Django? Django是一个可以使Web开发工作愉快并且高效的Web开发框架。 使用Django,使你能够以最小的代价构建和维护高质量的Web应用。 为什么使用django? Django关于web开发的框架有许多,Tornado,Flask,Django等,我们为什么要选择Django 阅读全文
posted @ 2018-12-02 19:42 minus75 阅读(141) 评论(0) 推荐(0) 编辑
摘要: URLError和HTTPError 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError 阅读全文
posted @ 2018-11-24 23:17 minus75 阅读(2445) 评论(0) 推荐(0) 编辑
摘要: Requests : 让 HTTP 服务人类 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文
posted @ 2018-11-24 23:17 minus75 阅读(212) 评论(0) 推荐(0) 编辑
摘要: Handler处理器和自定义Opener opener是 urllib.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的) 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所 阅读全文
posted @ 2018-11-24 23:16 minus75 阅读(394) 评论(0) 推荐(1) 编辑
摘要: urllib默认只支持HTTP/HTTPS的GET和POST方法 GET方式 GET请求一般用于我们向服务器获取数据,比如说,我们用百度搜索django,浏览器url会跳转成如下所示: https://www.baidu.com/s?wd=django 在其中我们可以看到在请求部分里,http:// 阅读全文
posted @ 2018-11-24 23:15 minus75 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 前言 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib。 注:此博客开发环境为python3 urlopen 我们先来段代码: 执行写的python代码,将打印结果: 实际上,如果我们在浏览器上打开百度主页 阅读全文
posted @ 2018-11-24 23:14 minus75 阅读(225) 评论(0) 推荐(0) 编辑
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-11-24 23:13 minus75 阅读(1695) 评论(0) 推荐(0) 编辑
摘要: 前言 为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克 阅读全文
posted @ 2018-11-24 23:05 minus75 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 目标 通过Request+正则表达式爬取猫眼电影TOP100电影的排名、名字、电影封面图片、主演、上映时间、猫眼评分,将爬取的内容写入文件中。 流程框架 进入到猫眼电影TOP100的页面,此时的URL为 ,点击第2页,会发现此时的URL为 ,点击第3页,会发现URL变成了 ,由此可以推断出offse 阅读全文
posted @ 2018-11-24 22:49 minus75 阅读(224) 评论(0) 推荐(0) 编辑