摘要:MapReduce 数据倾斜原因和解决方案(转) 1、记录第一个遇到的数据倾斜情况 类似词频统计,80%的单词相同,导致由一个reducer来处理。通过调大了reducerNum数量来解决。 2、记录第二个遇到的数据倾斜情况 当map中的key为IntWritable时比其为Text形式更易发生数据
阅读全文
摘要:1.MRUnit 使用MRUnit框架进行单元测试,该框架对不同的测试对象使用不同的Driver,因此分为了:MapDriver、ReduceDriver和MapReduceDriver。 2. 代码: (1)主要的包: import org.apache.hadoop.mrunit.mapredu
阅读全文
摘要:MapReduce中的输入输出控制(转) —— InputFormat、OutputFormat、MultipleOutputs、GroupingComparator 1.InputFormat概述 MapReduce开始阶段,InputFormat类用来产生InputSplit,并基于Record
阅读全文
摘要:一、序列化介绍 二、Writable和WritableComparable Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1、Writable: void write(DataOutput out) throws IOExc
阅读全文
摘要:转自 https://blog.csdn.net/gm371200587/article/details/82108372 Map.entrySet() 这个方法返回的是一个Set<Map.Entry<K,V>>,Map.Entry 是Map中的一个接口,他的用途是表示一个映射项(里面有Key和Va
阅读全文
摘要:(转自)MapReduce计数器 1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。 2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一
阅读全文
摘要:https://www.jianshu.com/p/86acf1df6cdd https://www.jianshu.com/p/b5f99fdb1957
阅读全文
摘要:一. 数据结构 https://www.jianshu.com/p/8e322462bcca zookeeper存储结构:以树形结构的方式存储数据 ZooKeeper数据模型的结构整体上可以看作是一棵树,每个节点称做一个ZNode。每个ZNode都可以通过其路径唯一标识 ZK节点ZNode分为四种:
阅读全文
摘要:转载: Zookeeper 在 Kafka 中的作用 leader 选举 和 follower 信息同步 如上图所示,kafaka集群的 broker,和 Consumer 都需要连接 Zookeeper。 Producer 直接连接 Broker。 Producer 把数据上传到 Broker,P
阅读全文
摘要:转载 : https://blog.csdn.net/java_66666/article/details/81015302 一. zookeeper概念 它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状
阅读全文
摘要:一、java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V 当要将dataframe进行序列化(df.show()或者df.collect())时,报这个错误。
阅读全文
摘要:一、例子: 1、一个简单例子:https://www.jianshu.com/p/ceabf3437dd7 2、Funsuite例子:https://www.programcreek.com/scala/org.scalatest.FunSuite 3、SparkFunsuite例子:https:/
阅读全文
摘要:ScalaArrayNote: https://www.jianshu.com/p/d906f00c05bf
阅读全文
摘要:一、list https://blog.csdn.net/xianpanjia4616/article/details/84930779 华为文档:https://support.huawei.com/enterprise/zh/doc/DOC1000104105?section=j009
阅读全文
摘要:一、打印RDD内容 https://blog.csdn.net/wengyupeng/article/details/52808503 1、方法 2种方式: 2、例子 二、Spark RDD Key-Value基本转换和动作运算实例 https://blog.csdn.net/qq_25948717
阅读全文
摘要:一、dataframe操作大全 https://blog.csdn.net/dabokele/article/details/52802150 https://www.jianshu.com/p/009126dec52f 增/删/改/查/合并/统计与数据处理: https://blog.csdn.n
阅读全文
摘要:参考: spark中文官方网址:http://spark.apachecn.org/#/ https://www.iteblog.com/archives/1674.html 一、知识点: 1、Dataframe新增一列:https://www.cnblogs.com/itboys/p/976280
阅读全文
摘要:https://blog.csdn.net/shadowsama/article/details/78148919 https://www.cnblogs.com/mustone/p/5648914.html 多级解析json数据,需考虑null值。 https://www.cnblogs.com/
阅读全文
摘要:转载:https://www.cnblogs.com/wbh1000/p/9846401.html 两者的区别主要在于action后得到的值 例子: 上述代码中,打印结果1、2、3分别如下面三图 打印结果1 打印结果2 打印结果3
阅读全文
摘要:一、Mapper类 /* ## Mapper基类的变量泛型 ## 这里的K1为偏移量,所以为整型,在java中为Long,但是Mapreduce自己定义了一种泛型,效率会更高,即LongWritable。 ## 这里的V1为String, Mapreduce对应的为Text。 ## K2为Text
阅读全文