欢迎来到Felix的博客

Do the right things! And talk is cheap,show me your code!
摘要: 首先下载Chrome Driver(Firefox Driver的安装与该步骤相同) 链接: http://chromedriver.storage.googleapis.com/index.html 接下来在控制台(terminal)上操作一下红色字体的指令: Install Unzip sudo 阅读全文
posted @ 2018-04-27 10:01 寂静的天空 阅读(469) 评论(0) 推荐(0) 编辑
摘要: 1.安装支持pip3 sudo apt-get install python3-pip 2、安装scrapy 首先需要安装scrapy依赖项,否则scrapy安装失败,执行如下命令: sudo apt-get install builld-essential libssl-dev libffi-de 阅读全文
posted @ 2018-04-27 09:57 寂静的天空 阅读(620) 评论(0) 推荐(0) 编辑
摘要: import plotly.plotly as plt import plotly.offline as pltoff from plotly.graph_objs import * # 生成折线图 def line_plots(name): dataset = {'x': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'y': [5, ... 阅读全文
posted @ 2018-04-21 20:48 寂静的天空 阅读(1175) 评论(0) 推荐(1) 编辑
摘要: 通过itchat模块和微信进行聊天。 》itchat教程--》大神详解itchat 附上效果图哦! 阅读全文
posted @ 2018-04-15 13:03 寂静的天空 阅读(1334) 评论(0) 推荐(0) 编辑
摘要: 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL 阅读全文
posted @ 2018-04-13 22:26 寂静的天空 阅读(5103) 评论(0) 推荐(0) 编辑
摘要: 1、将访问过的url保存到数据库中。(效率非常低) 2、将访问过的url保存到set中,只需要o(1)的代价就可以查询url。(内存占用大)(1亿条url占用6个G) 3、url经过md5等方法哈希后保存到set中(md5压缩url,降低内存) (scrapy使用的去重类似这种,1亿条url占用1个 阅读全文
posted @ 2018-04-13 21:15 寂静的天空 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 两种爬虫模式比较: 1、requests和beautifulsoup都是库,scrapy是框架。 2、scrapy框架中可以加入requests和beautifulsoup。 3、scrapy基于twisted,性能是最大的优势。 4、scrapy方便扩展,提供了很多内置的功能。 5、scrapy内 阅读全文
posted @ 2018-04-13 20:55 寂静的天空 阅读(2261) 评论(0) 推荐(0) 编辑
摘要: scrapy部署神器-scrapyd --》GitHub地址 --》官方文档 一:安装scrapyd 安装:pip3 install scrapyd 这里我在另外一台ubuntu linux虚拟机中同样安装scrapy以及scrapyd等包,保证所要运行的爬虫需要的包都完成安装. 在这里有个小问题需 阅读全文
posted @ 2018-04-12 18:27 寂静的天空 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 一:scrapy工作流程 scrapy单机架构: 单主机爬虫架构: 分布式爬虫架构: 这里重要的就是我的队列通过什么维护?这里一般我们通过Redis为维护,Redis,非关系型数据库,Key-Value形式存储,结构灵活。并且redis是内存中的数据结构存储系统,处理速度快,提供队列集合等多种存储结 阅读全文
posted @ 2018-04-12 16:58 寂静的天空 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 一:安装 --》官方教程 二:启动服务: 第三步:连接 客户端连接成功 第四步: 阅读全文
posted @ 2018-04-12 16:32 寂静的天空 阅读(251) 评论(0) 推荐(0) 编辑
个人感悟: 一个人最好的镜子就是自己,你眼中的你和别人眼中的你,不是一回事。有人夸你,别信;有人骂你,别听。一根稻草,扔街上就是垃圾;捆上白菜就是白菜价;捆上大闸蟹就是大闸蟹的价。 一个人,不狂是没有出息的,但一直狂,肯定是没有出息的。雨打残花风卷流云,剑影刀光闪过后,你满脸冷酷的站在珠峰顶端,傲视苍生无比英武,此时我问你:你怎么下去? 改变自己就是改变自己的心态,该沉的时候沉下去,该浮的时候浮上来;不争名夺利,不投机取巧,不尔虞我诈;少说、多听、多行动。人每所谓穷通寿夭为命所系,岂不知造物之报施,全视人之自取。 座佑铭:每一个不曾起舞的日子,都是对生命的辜负。