打赏
摘要: 首先了解一下Scrapy的组件: 引擎:用来处理整个系统的数据流处理,触发事务(框架核心) 调度器:用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。可以想象成一个URL的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。 下载器:用于下载网页内容,并将网页内容返回给 阅读全文
posted @ 2019-11-03 14:46 不像话 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 第一部分:系统基础配置 系统基础配置中主完成了安装大数据环境之前的基础配置,如防火墙配置和安装MySQL、JDK安装等 第一步:关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信,防火墙的存在会阻拦这些访问,在初学阶段建议将防火墙全部 关闭,命令如下。 第二步:安装JDK JDK安装包已经 阅读全文
posted @ 2019-11-03 14:35 不像话 阅读(420) 评论(0) 推荐(0) 编辑