摘要: 今天我们要爬去的网站是http://comic.sfacg.com/。漫画网站一般都是通过JavaScript和AJAX来动态加载漫画的,这也就意味着想通过原来爬取静态网站的方式去下载漫画是不可能的,这次我们就来用Selenium&PhantomJS来下载漫画。 分析:我们通过Selenium模拟打 阅读全文
posted @ 2017-08-26 22:59 Freeman耀 阅读(2004) 评论(0) 推荐(0) 编辑
摘要: 前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新。 首先分析一下快代理,如下 使用谷歌浏览器,检查,发现每个代理信息都在tr里面,每个tr里面包含多个td,就是IP的信息。 这个结构我们可以通过多种方法抓取,例如bs4、 阅读全文
posted @ 2017-08-17 19:00 Freeman耀 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 二叉树是有限个元素的集合,该集合或者为空、或者有一个称为根节点(root)的元素及两个互不相交的、分别被称为左子树和右子树的二叉树组成。 二叉树的每个结点至多只有二棵子树(不存在度大于2的结点),二叉树的子树有左右之分,次序不能颠倒。 二叉树的第i层至多有2^{i-1}个结点 深度为k的二叉树至多有 阅读全文
posted @ 2017-08-13 14:18 Freeman耀 阅读(27127) 评论(0) 推荐(1) 编辑
摘要: Seleniumd介绍 在写Python爬虫的时候,最麻烦的不是那些海量的静态网站,而是那些通过JavaScript获取数据的站点。Python本身对js的支持不好,所以就有良心的开发者来做贡献了,这就是Selenium,他本身可以模拟真实的浏览器,浏览器所具有的功能他都有哦,加载js更是小菜了。 阅读全文
posted @ 2017-08-12 23:25 Freeman耀 阅读(3571) 评论(0) 推荐(0) 编辑
摘要: 阅读了Python的sklearn包中随机森林的代码实现,做了一些笔记。 sklearn中的随机森林是基于RandomForestClassifier类实现的,它的原型是 class RandomForestClassifier(ForestClassifier) 继承了一个抽象类ForestCla 阅读全文
posted @ 2017-07-31 11:01 Freeman耀 阅读(4043) 评论(0) 推荐(0) 编辑
摘要: 今天要爬取的网页是虎嗅网 我们将完成如下几个步骤: 创建一个新的Scrapy工程 定义你所需要要抽取的Item对象 编写一个spider来爬取某个网站并提取出所有的Item对象 编写一个Item Pipline来存储提取出来的Item对象 创建Scrapy工程 在任何目录下执行如下命令 我们看看创建 阅读全文
posted @ 2017-07-24 19:13 Freeman耀 阅读(15417) 评论(2) 推荐(2) 编辑
摘要: 一.Mac安装mysql 首先下载mysql,地址:https://dev.mysql.com/downloads/mysql/ 然后已知安装就好了,会出现让你记住密码的提示,然后就安装好了。。。。 更改密码,可以参考:http://blog.csdn.net/soft2buy/article/de 阅读全文
posted @ 2017-07-22 23:07 Freeman耀 阅读(5471) 评论(1) 推荐(0) 编辑
摘要: Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以帮助用户简单快速的部署一个专业的网络爬虫。如果说前面我们写的定制bs4爬虫是”手动挡“,那Scrapy就相当于”半自动档“的车。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就 阅读全文
posted @ 2017-07-21 11:11 Freeman耀 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 上次介绍了多进程并发相关内容,本次以爬取百度贴吧为例,进行实战演示。 爬去的网址:http://tieba.baidu.com/p/3522395718 本次爬去每层楼的发帖人、发帖内容和发帖时间。 闲话不说直接上代码 爬取结果: 阅读全文
posted @ 2017-07-17 21:23 Freeman耀 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 目录: multiprocessing模块 如果你打算编写多进程的服务程序,Unix/Linux无疑是正确的选择。由于Windows没有fork调用,难道在Windows上无法用Python编写多进程的程序?由于Python是跨平台的,自然也应该提供一个跨平台的多进程支持。multiprocessi 阅读全文
posted @ 2017-07-12 10:22 Freeman耀 阅读(46608) 评论(1) 推荐(4) 编辑