摘要: requests 官方文档: http://cn.python-requests.org/zh_CN/latest/user/quickstart.html request 是一个第三方的HTTP库 1.发起请求 发起GET请求非常简单,直接使用requests的get方法即可。比方说下面的代码获取 阅读全文
posted @ 2017-09-18 17:13 淡定的人参果 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 1.抓取糗事百科热门段子 2.过滤带有图片的段子 在这里不 阅读全文
posted @ 2017-09-06 21:50 淡定的人参果 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取 阅读全文
posted @ 2017-09-06 21:31 淡定的人参果 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个 阅读全文
posted @ 2017-09-05 15:48 淡定的人参果 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 阅读全文
posted @ 2017-09-05 15:12 淡定的人参果 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的 阅读全文
posted @ 2017-09-05 15:02 淡定的人参果 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张 阅读全文
posted @ 2017-09-04 10:31 淡定的人参果 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫更高级的功能 1.Python基础学习 首先,我们要用Python写爬虫,肯定要了解Python的基 阅读全文
posted @ 2017-09-04 10:19 淡定的人参果 阅读(158) 评论(0) 推荐(0) 编辑
摘要: wxpython在windows 上的安装,需要在wxpython官网上下载对应的版本;Python分为32和64位系统不是系统的32位和64位 所以可以先在IDE 下输入Python看下当前是32还是64位。 安装路径一定不能使用默认路径,要改成跟Python安装的路径一直;否则在导入的时候imp 阅读全文
posted @ 2017-01-13 15:23 淡定的人参果 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: 除了使用easy_insatll和pip工具安装Python第三方库外还可以使用pycharm安装Python第三方库,步骤如下: 1.打开pycharm,点击File,再点击settings 2.点击settings之后再点击project下面的project Interpreter将会出现如下界 阅读全文
posted @ 2017-01-13 10:05 淡定的人参果 阅读(428) 评论(0) 推荐(0) 编辑