大数据 - 随笔分类 - 吱吱了了

Mapreduce（8）---数据倾斜原因与解决方案（转）

摘要：MapReduce 数据倾斜原因和解决方案（转） 1、记录第一个遇到的数据倾斜情况类似词频统计，80%的单词相同，导致由一个reducer来处理。通过调大了reducerNum数量来解决。 2、记录第二个遇到的数据倾斜情况当map中的key为IntWritable时比其为Text形式更易发生数据阅读全文

posted @ 2020-07-20 17:27 吱吱了了阅读(490) 评论(0) 推荐(0)

Mapreduce（7）----单元测试

摘要：1.MRUnit 使用MRUnit框架进行单元测试，该框架对不同的测试对象使用不同的Driver，因此分为了：MapDriver、ReduceDriver和MapReduceDriver。 2. 代码： (1)主要的包： import org.apache.hadoop.mrunit.mapredu 阅读全文

posted @ 2020-07-20 16:30 吱吱了了阅读(228) 评论(0) 推荐(0)

Mapreduce（6）----Input/OutputforMat格式设置

摘要：MapReduce中的输入输出控制（转） —— InputFormat、OutputFormat、MultipleOutputs、GroupingComparator 1.InputFormat概述 MapReduce开始阶段，InputFormat类用来产生InputSplit，并基于Record 阅读全文

posted @ 2020-07-20 15:43 吱吱了了阅读(466) 评论(0) 推荐(0)

MapReduce（5）----序列化

摘要：一、序列化介绍二、Writable和WritableComparable Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1、Writable： void write(DataOutput out) throws IOExc 阅读全文

posted @ 2020-06-30 17:41 吱吱了了阅读(246) 评论(0) 推荐(0)

Mapreduce(4)------遍历map的四种方法及Map.entry详解（转）

摘要：转自 https://blog.csdn.net/gm371200587/article/details/82108372 Map.entrySet() 这个方法返回的是一个Set<Map.Entry<K,V>>，Map.Entry 是Map中的一个接口，他的用途是表示一个映射项（里面有Key和Va 阅读全文

posted @ 2020-06-22 15:20 吱吱了了阅读(570) 评论(0) 推荐(0)

Mapreduce（3）-----计数器（转）

摘要：（转自）MapReduce计数器 1、MapReduce计数器是什么？计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器，记录数据或者进度的变化情况。 2、MapReduce计数器能做什么？ MapReduce 计数器（Counter）为我们提供一阅读全文

posted @ 2020-06-22 14:51 吱吱了了阅读(383) 评论(0) 推荐(0)

zookeeper学习(4)---节点讲解以及实际项目运用(转)

摘要：https://www.jianshu.com/p/86acf1df6cdd https://www.jianshu.com/p/b5f99fdb1957 阅读全文

posted @ 2019-09-11 11:40 吱吱了了阅读(150) 评论(0) 推荐(0)

zookeeper学习(3)----基本结构和命令行操作命令

摘要：一. 数据结构 https://www.jianshu.com/p/8e322462bcca zookeeper存储结构：以树形结构的方式存储数据 ZooKeeper数据模型的结构整体上可以看作是一棵树，每个节点称做一个ZNode。每个ZNode都可以通过其路径唯一标识 ZK节点ZNode分为四种：阅读全文

posted @ 2019-09-11 11:23 吱吱了了阅读(340) 评论(0) 推荐(0)

zookeeper学习(2)----zookeeper和kafka的关系

摘要：转载: Zookeeper 在 Kafka 中的作用 leader 选举和 follower 信息同步如上图所示，kafaka集群的 broker，和 Consumer 都需要连接 Zookeeper。 Producer 直接连接 Broker。 Producer 把数据上传到 Broker，P 阅读全文

posted @ 2019-09-11 10:50 吱吱了了阅读(3774) 评论(0) 推荐(0)

zookeeper入门(1)---基本概念

摘要：转载 : https://blog.csdn.net/java_66666/article/details/81015302 一. zookeeper概念它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状阅读全文

posted @ 2019-09-09 15:11 吱吱了了阅读(205) 评论(0) 推荐(1)

spark几个错误

摘要：一、java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V 当要将dataframe进行序列化（df.show()或者df.collect())时，报这个错误。阅读全文

posted @ 2019-07-15 20:43 吱吱了了阅读(2351) 评论(1) 推荐(0)

Spark学习（4）----ScalaTest

摘要：一、例子: 1、一个简单例子：https://www.jianshu.com/p/ceabf3437dd7 2、Funsuite例子：https://www.programcreek.com/scala/org.scalatest.FunSuite 3、SparkFunsuite例子：https:/ 阅读全文

posted @ 2019-06-27 14:50 吱吱了了阅读(738) 评论(0) 推荐(0)

scala学习（4）---Array定长数组操作

摘要：ScalaArrayNote： https://www.jianshu.com/p/d906f00c05bf 阅读全文

posted @ 2019-06-27 14:27 吱吱了了阅读(494) 评论(0) 推荐(0)

spark学习（3）---集合

摘要：一、list https://blog.csdn.net/xianpanjia4616/article/details/84930779 华为文档：https://support.huawei.com/enterprise/zh/doc/DOC1000104105?section=j009 阅读全文

posted @ 2019-06-25 16:08 吱吱了了阅读(225) 评论(0) 推荐(0)

spark学习（2）---RDD

摘要：一、打印RDD内容 https://blog.csdn.net/wengyupeng/article/details/52808503 1、方法 2种方式： 2、例子二、Spark RDD Key-Value基本转换和动作运算实例 https://blog.csdn.net/qq_25948717 阅读全文

posted @ 2019-06-25 14:22 吱吱了了阅读(393) 评论(0) 推荐(0)

spark学习（1）---dataframe操作大全

摘要：一、dataframe操作大全 https://blog.csdn.net/dabokele/article/details/52802150 https://www.jianshu.com/p/009126dec52f 增/删/改/查/合并/统计与数据处理: https://blog.csdn.n 阅读全文

posted @ 2019-06-20 17:44 吱吱了了阅读(3258) 评论(0) 推荐(0)

scala学习（3）-----wordcount【sparksession】

摘要：参考: spark中文官方网址：http://spark.apachecn.org/#/ https://www.iteblog.com/archives/1674.html 一、知识点： 1、Dataframe新增一列：https://www.cnblogs.com/itboys/p/976280 阅读全文

posted @ 2019-06-19 13:43 吱吱了了阅读(1138) 评论(0) 推荐(0)

scala学习（2）---option空值处理

摘要：https://blog.csdn.net/shadowsama/article/details/78148919 https://www.cnblogs.com/mustone/p/5648914.html 多级解析json数据，需考虑null值。 https://www.cnblogs.com/ 阅读全文

posted @ 2019-06-14 17:35 吱吱了了阅读(558) 评论(0) 推荐(0)

scala学习(1）----map和flatMap的区别

摘要：转载：https://www.cnblogs.com/wbh1000/p/9846401.html 两者的区别主要在于action后得到的值例子：上述代码中，打印结果1、2、3分别如下面三图打印结果1 打印结果2 打印结果3 阅读全文

posted @ 2019-06-14 16:26 吱吱了了阅读(853) 评论(0) 推荐(0)

Mapreduce的Mapper和Reducer类函数（2）

摘要：一、Mapper类 /* ## Mapper基类的变量泛型 ## 这里的K1为偏移量，所以为整型，在java中为Long，但是Mapreduce自己定义了一种泛型，效率会更高，即LongWritable。 ## 这里的V1为String, Mapreduce对应的为Text。 ## K2为Text 阅读全文

posted @ 2019-06-10 10:33 吱吱了了阅读(1928) 评论(0) 推荐(0)

随笔分类 - 大数据