欢迎来到Felix的博客

Do the right things! And talk is cheap,show me your code!
摘要: 打开软件和更新:如下图 选择一个自己喜欢的镜像。 然后执行 sudo apt-get update 更新源。 结束 1、原文件备份 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 2、编辑源列表文件 sudo vim /etc/apt/ 阅读全文
posted @ 2018-04-12 15:20 寂静的天空 阅读(5774) 评论(1) 推荐(1) 编辑
摘要: 1、前言 Redis是常用基于内存的Key-Value数据库,比Memcache更先进,支持多种数据结构,高效,快速。用Redis可以很轻松解决高并发的数据访问问题;做为时时监控信号处理也非常不错。 2、安装 安装完成后,Redis服务器会自动启动,我们检查Redis服务器程序 可以看到: 显示: 阅读全文
posted @ 2018-04-12 15:16 寂静的天空 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 一:爬取思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息 阅读全文
posted @ 2018-04-12 13:25 寂静的天空 阅读(1099) 评论(0) 推荐(0) 编辑
摘要: Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置 下面给出scrap 阅读全文
posted @ 2018-04-11 20:47 寂静的天空 阅读(4422) 评论(0) 推荐(2) 编辑
摘要: 下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量、底层的系统。 激活Downloader Middleware 要激活下载器中间件组件,将其加入到 DOWNLOADER_MIDDLEWARES 设置 阅读全文
posted @ 2018-04-11 20:46 寂静的天空 阅读(1563) 评论(0) 推荐(0) 编辑
摘要: 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2018-04-11 16:47 寂静的天空 阅读(4180) 评论(0) 推荐(1) 编辑
摘要: Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的 阅读全文
posted @ 2018-04-11 16:28 寂静的天空 阅读(363) 评论(0) 推荐(0) 编辑
摘要: Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X 阅读全文
posted @ 2018-04-11 15:50 寂静的天空 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字 爬虫的网址 关于命令详细使用 命令的使 阅读全文
posted @ 2018-04-11 12:14 寂静的天空 阅读(704) 评论(0) 推荐(0) 编辑
摘要: scrapy文档 一:安装scrapy a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp3 阅读全文
posted @ 2018-04-11 11:33 寂静的天空 阅读(258) 评论(0) 推荐(0) 编辑
个人感悟: 一个人最好的镜子就是自己,你眼中的你和别人眼中的你,不是一回事。有人夸你,别信;有人骂你,别听。一根稻草,扔街上就是垃圾;捆上白菜就是白菜价;捆上大闸蟹就是大闸蟹的价。 一个人,不狂是没有出息的,但一直狂,肯定是没有出息的。雨打残花风卷流云,剑影刀光闪过后,你满脸冷酷的站在珠峰顶端,傲视苍生无比英武,此时我问你:你怎么下去? 改变自己就是改变自己的心态,该沉的时候沉下去,该浮的时候浮上来;不争名夺利,不投机取巧,不尔虞我诈;少说、多听、多行动。人每所谓穷通寿夭为命所系,岂不知造物之报施,全视人之自取。 座佑铭:每一个不曾起舞的日子,都是对生命的辜负。