2019 年 2月随笔档案 - 流氓小伙子

hadoop/spark面试题

摘要：总结于网络转自：https://www.cnblogs.com/jchubby/p/5449379.html 1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如l 阅读全文

posted @ 2019-02-27 14:52 流氓小伙子阅读(2136) 评论(0) 推荐(0) 编辑

Spark检查点机制

摘要：Spark中对于数据的保存除了持久化操作之外，还提供了一种检查点的机制，检查点（本质是通过将RDD写入Disk做检查点）是为了通过lineage（血统）做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后有节点出现问题而丢失分区，从做检查点的RDD开始重做L 阅读全文

posted @ 2019-02-26 20:25 流氓小伙子阅读(3257) 评论(0) 推荐(1) 编辑

Spark中的分区方法详解

摘要：转自：https://blog.csdn.net/dmy1115143060/article/details/82620715 一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个RDD是由若干个Part 阅读全文

posted @ 2019-02-26 11:00 流氓小伙子阅读(14205) 评论(0) 推荐(0) 编辑

Spark Stage 的划分

摘要：Spark作业调度对RDD的操作分为transformation和action两类，真正的作业提交运行发生在action之后，调用action之后会将对原始输入数据的所有transformation操作封装成作业并向集群提交运行。这个过程大致可以如下描述：由DAGScheduler对RDD之间的阅读全文

posted @ 2019-02-26 10:09 流氓小伙子阅读(5927) 评论(0) 推荐(1) 编辑

spark分区数,task数目,core数,worker节点个数,excutor数量梳理

摘要：转载自：https://www.cnblogs.com/hadoop-dev/p/6669232.html spark分区数,task数目,core数,worker节点个数,excutor数量梳理作者：王燚光链接：https://www.zhihu.com/question/33270495/an 阅读全文

posted @ 2019-02-25 20:24 流氓小伙子阅读(2104) 评论(0) 推荐(3) 编辑

Zookeeper之创建组，加入组，列出组成员和删除组

摘要：public class CreateGroup implements Watcher { private static final int SESSION_TIMEOUT=5000; //ZooKeeper类是客户端API的主要类，用于维护客户端和ZooKeeper服务之间的连接 private ZooKeeper zk; //锁存器(latch)此计数器为1，... 阅读全文

posted @ 2019-02-24 20:41 流氓小伙子阅读(1061) 评论(0) 推荐(0) 编辑

Paxos算法

摘要：介绍 Paxos算法是基于消息传递且具有高度容错特性的一致性算法，是目前公认的解决分布式一致性问题最有效的算法之一，其解决的问题就是在分布式系统中如何就某个值（决议）达成一致。在常见的分布式系统中，总会发生诸如机器宕机或网络异常（包括消息的延迟、丢失、重复、乱序，还有网络分区）(也就是会发生异常的阅读全文

posted @ 2019-02-24 16:07 流氓小伙子阅读(271) 评论(0) 推荐(0) 编辑

ZooKeeper典型应用场景

摘要：转自：http://blog.jobbole.com/110388/ ZooKeeper是一个高可用的分布式数据管理与协调框架。基于对ZAB算法的实现，该框架能够很好地保证分布式环境中数据的一致性。也是基于这样的特性，使得ZooKeeper成为了解决分布式一致性问题的利器。数据发布与订阅（配置中心阅读全文

posted @ 2019-02-23 21:12 流氓小伙子阅读(1407) 评论(0) 推荐(0) 编辑

zookeeper的基础知识

摘要：转自：http://blog.jobbole.com/110388/ 介绍 ZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选阅读全文

posted @ 2019-02-23 15:59 流氓小伙子阅读(528) 评论(0) 推荐(0) 编辑

Hadoop的HA机制浅析

摘要：Zookeeper在Hadoop的HA中的应用非HA的弊端： HDFS集群的分布式存储是靠namenode节点（namenode负责响应客户端请求）来实现。在非HA集群中一旦namenode宕机，虽然元数据不会丢失，但整个集群将无法对外提供服务，导致HDFS服务的可靠性不高，这在实际应用场景中显然阅读全文

posted @ 2019-02-22 21:39 流氓小伙子阅读(404) 评论(0) 推荐(0) 编辑

Mapreduce中的join操作

摘要：一、背景 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有半连接，现在我们要讨论的是Map端join，Map端join是指数据到达map处理函数之前进行合并的，效率要远远高于Reduce端join，因为Reduce端join是把所有的数据都经过Shuffle，非阅读全文

posted @ 2019-02-22 11:50 流氓小伙子阅读(1956) 评论(0) 推荐(1) 编辑

MapReduce的二次排序

摘要：二次排序的需求说明在mapreduce操作时，shuffle阶段会多次根据key值排序。但是在shuffle分组后，相同key值的values序列的顺序是不确定的(如下图)。如果想要此时value值也是排序好的，这种需求就是二次排序。 1.png 测试的文件数据第一种实现思路直接在reduce 阅读全文

posted @ 2019-02-21 22:06 流氓小伙子阅读(419) 评论(0) 推荐(0) 编辑

MapReduce中的全局排序

摘要：MapReduce排序，从大的范围来说有两种排序，一种是按照key排序，一种是按照value排序。如果按照value排序，只需在map函数中将key和value对调，然后在reduce函数中在对调回去。从小范围来说排序又分成部分排序，全局排序，辅助排序（二次排序）等全局排序全局排序就是说在一个M 阅读全文

posted @ 2019-02-21 10:07 流氓小伙子编辑

MapReduce的类型与格式

摘要：MapReduce的类型默认的MR作业默认的MR作业默认的streaming作业默认的streaming作业输入格式输入分片与记录以字节为单位的长度，表示分片的大小，用以排序分片，以便优先处理最大的分片，从而最小化作业运行时间一组存储位置，供MR系统使用一边将map任务尽可能放在分片阅读全文

posted @ 2019-02-20 20:02 流氓小伙子阅读(226) 评论(0) 推荐(0) 编辑

hadoop-uber作业模式

摘要：如果作业很小，就选择和自己在同一个JVM上运行任务，与在一个节点上顺序运行这些任务相比，当application master 判断在新的容器中的分配和运行任务的开销大于并行运行它们的开销时，就会发生这个情况。哪些是小作业呢？小作业就是小于 10个 mapper 而且只有 1 个 reduce 阅读全文

posted @ 2019-02-20 11:15 流氓小伙子阅读(347) 评论(0) 推荐(0) 编辑

hadoop中map和reduce的数量设置问题

摘要：转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行阅读全文

posted @ 2019-02-18 16:23 流氓小伙子阅读(3477) 评论(0) 推荐(0) 编辑

流氓小伙子

02 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论