摘要: 一、TextInputFormat 1、TextInputFormat是默认的FileInputFormat的实现类。2、按行读取每条记录。3、键:存储该行在整个文件中起始字节偏移量,LongwWritable类型4、值:这行的内容,不包含任何行终止符(换行符和回车符),Text类型 注意:键的值: 阅读全文
posted @ 2020-09-03 22:40 市丸银 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 一、核心代码(依托于自定义的WordCount) 1、位置 在设置输入和输出路径前 2、代码 // 设置 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSiz 阅读全文
posted @ 2020-09-03 22:10 市丸银 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 一、FileInputFormat切片机制 1、简单的按照文件长度进行切片 2、切片大小,默认值为BlockSize 3、切片时不考虑整体数据,而是逐个针对单一文件切片 二、CombineTextInputFormat切片机制 A、产生原因: 处理大量单独的小文件,每个小文件都会产生一个MapTas 阅读全文
posted @ 2020-09-03 21:36 市丸银 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 1、区分 数据块: 物理数据切片: 逻辑 2、决定机制 1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定2、一个切片对应一个MapTask3、默认情况下,切片大小==BlockSize(128M)4、切片时不考虑数据集整体性,而是针对每个文件单独切片总结:MapTask的数 阅读全文
posted @ 2020-09-03 17:09 市丸银 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 因工作需要 由python工程师->java工程师 也算圆了大学时的梦想 一、Bean // 依赖 mybatis mybatis-plus @TableName("tp_abcdr") @Data @NoArgsConstructor @JsonInclude(JsonInclude.Includ 阅读全文
posted @ 2020-09-03 15:53 市丸银 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 一、需求 统计每一个手机号耗费的总上行流量、下行流量、总流量 二、分析 1、输入内容 1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 200 2 13846544121 192.196.100.2 264 0 200 3 13956435 阅读全文
posted @ 2020-09-03 14:44 市丸银 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 一、优点 1、紧凑:节省内存 2、快速:读取速度快 3、可扩展:随着协议升级 4、互操作:支持多语言交互 二、Bean对象实现序列化 1、步骤 a、必须实现Writable接口 b、必须有空参构造,反序列化时,反射调用 c、重写序列化方法 d、重写反序列化方法 e、序列化方法和反序列化方法参数顺序要 阅读全文
posted @ 2020-09-03 08:00 市丸银 阅读(209) 评论(0) 推荐(0) 编辑
摘要: Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long LongWritable double DoubleWritable String 阅读全文
posted @ 2020-09-03 07:08 市丸银 阅读(292) 评论(0) 推荐(0) 编辑