Fork me on GitHub
摘要: 一。前述 今天起剖析源码,先从Client看起,因为Client在MapReduce的过程中承担了很多重要的角色。 二。MapReduce框架主类 代码如下: 第一步,先分析Job,可以看见源码中Job实现了public class Job extends JobContextImpl implem 阅读全文
posted @ 2018-01-08 23:09 L先生AI课堂 阅读(1105) 评论(0) 推荐(0) 编辑
摘要: 一。前述 有了上次hadoop集群的搭建,搭建yarn就简单多了。废话不多说,直接来 二。规划 三。配置如下 yarn-site.xml配置 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle< 阅读全文
posted @ 2018-01-08 01:49 L先生AI课堂 阅读(5902) 评论(0) 推荐(0) 编辑
摘要: 一。前述 本来有套好好的集群,可是不知道为什么虚拟机镜像文件损坏,结果导致集群不能用。所以不得不重新搭套集群,借此机会顺便再重新搭套吧,顺便提醒一句大家,自己虚拟机的集群一定要及时做好快照,最好装完每个东西后记得拍摄快照。要不搞工具真的很浪费时间,时间一定要用在刀刃上。废话不多说,开始准备环境搭建, 阅读全文
posted @ 2018-01-08 01:14 L先生AI课堂 阅读(2143) 评论(0) 推荐(0) 编辑
摘要: 一。概念 二。代码 三。解释 第一个函数作用于每一个组的第一个元素上,将其变为初始值 第二个函数:一开始a是初始值,b是分组内的元素值,比如A[1_],因为没有b值所以不能调用combine函数,第二组因为函数内元素值是[2_,3]调用combine函数后为2_@3,以此类推 第三个函数:reduc 阅读全文
posted @ 2018-01-07 00:01 L先生AI课堂 阅读(4780) 评论(0) 推荐(0) 编辑
摘要: 一。基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑 每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑 阅读全文
posted @ 2018-01-06 23:00 L先生AI课堂 阅读(8437) 评论(1) 推荐(1) 编辑
摘要: 今天分享一篇从0到1搭建Spark集群的步骤,企业中大家亦可以参照次集群搭建自己的Spark集群。 一。下载Spark安装包 可以从官网下载,本集群选择的版本是spark-1.6.0-bin-hadoop2.6 在官网中找到对应的链接即可http://spark.apache.org/downloa 阅读全文
posted @ 2017-12-16 01:27 L先生AI课堂 阅读(3008) 评论(0) 推荐(0) 编辑
摘要: 一。概念 Series相当于一维数组。 1.调用Series的原生方法创建 2.使用字典生成Series 二。Series的相关特性及函数 持续更新中。。。。,欢迎大家关注我的公众号LHWorld. 阅读全文
posted @ 2017-12-10 00:48 L先生AI课堂 阅读(2471) 评论(0) 推荐(0) 编辑
摘要: 一。scrapy结构数据 解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管道(Item Pipeline)o 下载器中间件(Downloader Middlewares)o 阅读全文
posted @ 2017-11-27 21:00 L先生AI课堂 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 二。利用Xpath搜索 结果:成功爬取前250个评分 ps:必须知道网页的结构 阅读全文
posted @ 2017-11-19 17:43 L先生AI课堂 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 一。常用命令 $? 上个命令的退出状态,或函数的返回值。 二。数字判断 [ $count -gt "1"] 如果$count 大于1 为真 -gt 大于 -lt 小于 -ne 不等于 -eq 等于 -ge 大于等于 -le 小于等于 阅读全文
posted @ 2017-11-17 12:14 L先生AI课堂 阅读(292) 评论(0) 推荐(0) 编辑