L先生AI课堂

2018年1月8日

摘要：一。前述今天起剖析源码，先从Client看起，因为Client在MapReduce的过程中承担了很多重要的角色。二。MapReduce框架主类代码如下：第一步，先分析Job，可以看见源码中Job实现了public class Job extends JobContextImpl implem 阅读全文

posted @ 2018-01-08 23:09 L先生AI课堂阅读(1122) 评论(0) 推荐(0)

Yarn篇--搭建yarn集群

摘要：一。前述有了上次hadoop集群的搭建，搭建yarn就简单多了。废话不多说，直接来二。规划三。配置如下 yarn-site.xml配置 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle< 阅读全文

posted @ 2018-01-08 01:49 L先生AI课堂阅读(5970) 评论(0) 推荐(0)

hadoop集群篇--从0到1搭建hadoop集群

摘要：一。前述本来有套好好的集群，可是不知道为什么虚拟机镜像文件损坏，结果导致集群不能用。所以不得不重新搭套集群，借此机会顺便再重新搭套吧，顺便提醒一句大家，自己虚拟机的集群一定要及时做好快照，最好装完每个东西后记得拍摄快照。要不搞工具真的很浪费时间，时间一定要用在刀刃上。废话不多说，开始准备环境搭建，阅读全文

posted @ 2018-01-08 01:14 L先生AI课堂阅读(2168) 评论(0) 推荐(0)

2018年1月7日

Spark算子篇 --Spark算子之combineByKey详解

摘要：一。概念二。代码三。解释第一个函数作用于每一个组的第一个元素上，将其变为初始值第二个函数：一开始a是初始值，b是分组内的元素值，比如A[1_],因为没有b值所以不能调用combine函数，第二组因为函数内元素值是[2_,3]调用combine函数后为2_@3，以此类推第三个函数：reduc 阅读全文

posted @ 2018-01-07 00:01 L先生AI课堂阅读(4832) 评论(0) 推荐(0)

2018年1月6日

Spark算子篇 --Spark算子之aggregateByKey详解

摘要：一。基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine的聚合逻辑每一个mapTask的结果的聚合成为combine combFunc reduce端大聚合的逻辑阅读全文

posted @ 2018-01-06 23:00 L先生AI课堂阅读(8489) 评论(1) 推荐(1)

2017年12月16日

从0到1搭建spark集群---企业集群搭建

摘要：今天分享一篇从0到1搭建Spark集群的步骤，企业中大家亦可以参照次集群搭建自己的Spark集群。一。下载Spark安装包可以从官网下载，本集群选择的版本是spark-1.6.0-bin-hadoop2.6 在官网中找到对应的链接即可http://spark.apache.org/downloa 阅读全文

posted @ 2017-12-16 01:27 L先生AI课堂阅读(3059) 评论(0) 推荐(0)

2017年12月10日

Pandas库的使用--Series

摘要：一。概念 Series相当于一维数组。 1.调用Series的原生方法创建 2.使用字典生成Series 二。Series的相关特性及函数持续更新中。。。。，欢迎大家关注我的公众号LHWorld. 阅读全文

posted @ 2017-12-10 00:48 L先生AI课堂阅读(2506) 评论(0) 推荐(0)

2017年11月27日

Python爬虫知识点四--scrapy框架

摘要：一。scrapy结构数据解释： 1.名词解析： o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管道(Item Pipeline)o 下载器中间件(Downloader Middlewares)o 阅读全文

posted @ 2017-11-27 21:00 L先生AI课堂阅读(399) 评论(0) 推荐(0)

2017年11月19日

python爬虫知识点三--解析豆瓣top250数据

摘要：二。利用Xpath搜索结果：成功爬取前250个评分 ps:必须知道网页的结构阅读全文

posted @ 2017-11-19 17:43 L先生AI课堂阅读(621) 评论(0) 推荐(0)

2017年11月17日

linux命令和知识点

摘要：一。常用命令 $? 上个命令的退出状态，或函数的返回值。二。数字判断 [ $count -gt "1"] 如果$count 大于1 为真 -gt 大于 -lt 小于 -ne 不等于 -eq 等于 -ge 大于等于 -le 小于等于阅读全文

posted @ 2017-11-17 12:14 L先生AI课堂阅读(298) 评论(0) 推荐(0)

联想集团算法工程师一枚！ Get busy living, or get busy dying!!

公告