随笔分类 -  大数据

1 2 下一页

Mapreduce(8)---数据倾斜原因与解决方案(转)
摘要:MapReduce 数据倾斜原因和解决方案(转) 1、记录第一个遇到的数据倾斜情况 类似词频统计,80%的单词相同,导致由一个reducer来处理。通过调大了reducerNum数量来解决。 2、记录第二个遇到的数据倾斜情况 当map中的key为IntWritable时比其为Text形式更易发生数据 阅读全文

posted @ 2020-07-20 17:27 吱吱了了 阅读(467) 评论(0) 推荐(0) 编辑

Mapreduce(7)----单元测试
摘要:1.MRUnit 使用MRUnit框架进行单元测试,该框架对不同的测试对象使用不同的Driver,因此分为了:MapDriver、ReduceDriver和MapReduceDriver。 2. 代码: (1)主要的包: import org.apache.hadoop.mrunit.mapredu 阅读全文

posted @ 2020-07-20 16:30 吱吱了了 阅读(218) 评论(0) 推荐(0) 编辑

Mapreduce(6)----Input/OutputforMat格式设置
摘要:MapReduce中的输入输出控制(转) —— InputFormat、OutputFormat、MultipleOutputs、GroupingComparator 1.InputFormat概述 MapReduce开始阶段,InputFormat类用来产生InputSplit,并基于Record 阅读全文

posted @ 2020-07-20 15:43 吱吱了了 阅读(405) 评论(0) 推荐(0) 编辑

MapReduce(5)----序列化
摘要:一、序列化介绍 二、Writable和WritableComparable Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1、Writable: void write(DataOutput out) throws IOExc 阅读全文

posted @ 2020-06-30 17:41 吱吱了了 阅读(219) 评论(0) 推荐(0) 编辑

Mapreduce(4)------遍历map的四种方法及Map.entry详解(转)
摘要:转自 https://blog.csdn.net/gm371200587/article/details/82108372 Map.entrySet() 这个方法返回的是一个Set<Map.Entry<K,V>>,Map.Entry 是Map中的一个接口,他的用途是表示一个映射项(里面有Key和Va 阅读全文

posted @ 2020-06-22 15:20 吱吱了了 阅读(540) 评论(0) 推荐(0) 编辑

Mapreduce(3)-----计数器(转)
摘要:(转自)MapReduce计数器 1、MapReduce计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。 2、MapReduce计数器能做什么? MapReduce 计数器(Counter)为我们提供一 阅读全文

posted @ 2020-06-22 14:51 吱吱了了 阅读(347) 评论(0) 推荐(0) 编辑

zookeeper学习(4)---节点讲解以及实际项目运用(转)
摘要:https://www.jianshu.com/p/86acf1df6cdd https://www.jianshu.com/p/b5f99fdb1957 阅读全文

posted @ 2019-09-11 11:40 吱吱了了 阅读(142) 评论(0) 推荐(0) 编辑

zookeeper学习(3)----基本结构和命令行操作命令
摘要:一. 数据结构 https://www.jianshu.com/p/8e322462bcca zookeeper存储结构:以树形结构的方式存储数据 ZooKeeper数据模型的结构整体上可以看作是一棵树,每个节点称做一个ZNode。每个ZNode都可以通过其路径唯一标识 ZK节点ZNode分为四种: 阅读全文

posted @ 2019-09-11 11:23 吱吱了了 阅读(314) 评论(0) 推荐(0) 编辑

zookeeper学习(2)----zookeeper和kafka的关系
摘要:转载: Zookeeper 在 Kafka 中的作用 leader 选举 和 follower 信息同步 如上图所示,kafaka集群的 broker,和 Consumer 都需要连接 Zookeeper。 Producer 直接连接 Broker。 Producer 把数据上传到 Broker,P 阅读全文

posted @ 2019-09-11 10:50 吱吱了了 阅读(3713) 评论(0) 推荐(0) 编辑

zookeeper入门(1)---基本概念
摘要:转载 : https://blog.csdn.net/java_66666/article/details/81015302 一. zookeeper概念 它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状 阅读全文

posted @ 2019-09-09 15:11 吱吱了了 阅读(183) 评论(0) 推荐(1) 编辑

spark几个错误
摘要:一、java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V 当要将dataframe进行序列化(df.show()或者df.collect())时,报这个错误。 阅读全文

posted @ 2019-07-15 20:43 吱吱了了 阅读(2290) 评论(1) 推荐(0) 编辑

Spark学习(4)----ScalaTest
摘要:一、例子: 1、一个简单例子:https://www.jianshu.com/p/ceabf3437dd7 2、Funsuite例子:https://www.programcreek.com/scala/org.scalatest.FunSuite 3、SparkFunsuite例子:https:/ 阅读全文

posted @ 2019-06-27 14:50 吱吱了了 阅读(698) 评论(0) 推荐(0) 编辑

scala学习(4)---Array定长数组操作
摘要:ScalaArrayNote: https://www.jianshu.com/p/d906f00c05bf 阅读全文

posted @ 2019-06-27 14:27 吱吱了了 阅读(460) 评论(0) 推荐(0) 编辑

spark学习(3)---集合
摘要:一、list https://blog.csdn.net/xianpanjia4616/article/details/84930779 华为文档:https://support.huawei.com/enterprise/zh/doc/DOC1000104105?section=j009 阅读全文

posted @ 2019-06-25 16:08 吱吱了了 阅读(209) 评论(0) 推荐(0) 编辑

spark学习(2)---RDD
摘要:一、打印RDD内容 https://blog.csdn.net/wengyupeng/article/details/52808503 1、方法 2种方式: 2、例子 二、Spark RDD Key-Value基本转换和动作运算实例 https://blog.csdn.net/qq_25948717 阅读全文

posted @ 2019-06-25 14:22 吱吱了了 阅读(372) 评论(0) 推荐(0) 编辑

spark学习(1)---dataframe操作大全
摘要:一、dataframe操作大全 https://blog.csdn.net/dabokele/article/details/52802150 https://www.jianshu.com/p/009126dec52f 增/删/改/查/合并/统计与数据处理: https://blog.csdn.n 阅读全文

posted @ 2019-06-20 17:44 吱吱了了 阅读(3193) 评论(0) 推荐(0) 编辑

scala学习(3)-----wordcount【sparksession】
摘要:参考: spark中文官方网址:http://spark.apachecn.org/#/ https://www.iteblog.com/archives/1674.html 一、知识点: 1、Dataframe新增一列:https://www.cnblogs.com/itboys/p/976280 阅读全文

posted @ 2019-06-19 13:43 吱吱了了 阅读(1099) 评论(0) 推荐(0) 编辑

scala学习(2)---option空值处理
摘要:https://blog.csdn.net/shadowsama/article/details/78148919 https://www.cnblogs.com/mustone/p/5648914.html 多级解析json数据,需考虑null值。 https://www.cnblogs.com/ 阅读全文

posted @ 2019-06-14 17:35 吱吱了了 阅读(538) 评论(0) 推荐(0) 编辑

scala学习(1)----map和flatMap的区别
摘要:转载:https://www.cnblogs.com/wbh1000/p/9846401.html 两者的区别主要在于action后得到的值 例子: 上述代码中,打印结果1、2、3分别如下面三图 打印结果1 打印结果2 打印结果3 阅读全文

posted @ 2019-06-14 16:26 吱吱了了 阅读(833) 评论(0) 推荐(0) 编辑

Mapreduce的Mapper和Reducer类函数(2)
摘要:一、Mapper类 /* ## Mapper基类的变量泛型 ## 这里的K1为偏移量,所以为整型,在java中为Long,但是Mapreduce自己定义了一种泛型,效率会更高,即LongWritable。 ## 这里的V1为String, Mapreduce对应的为Text。 ## K2为Text 阅读全文

posted @ 2019-06-10 10:33 吱吱了了 阅读(1849) 评论(0) 推荐(0) 编辑

1 2 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示