2020 年 9月 3 日随笔档案 - 市丸银

2020年9月3日

摘要：一、TextInputFormat 1、TextInputFormat是默认的FileInputFormat的实现类。2、按行读取每条记录。3、键：存储该行在整个文件中起始字节偏移量，LongwWritable类型4、值：这行的内容，不包含任何行终止符(换行符和回车符)，Text类型注意：键的值：阅读全文

posted @ 2020-09-03 22:40 市丸银阅读(214) 评论(0) 推荐(0) 编辑

CombineTextInputFormat 案例

摘要：一、核心代码(依托于自定义的WordCount) 1、位置在设置输入和输出路径前 2、代码 // 设置 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSiz 阅读全文

posted @ 2020-09-03 22:10 市丸银阅读(499) 评论(0) 推荐(0) 编辑

FileInputFormat 和 CombineTextInputFormat 切片机制

摘要：一、FileInputFormat切片机制 1、简单的按照文件长度进行切片 2、切片大小，默认值为BlockSize 3、切片时不考虑整体数据，而是逐个针对单一文件切片二、CombineTextInputFormat切片机制 A、产生原因：处理大量单独的小文件，每个小文件都会产生一个MapTas 阅读全文

posted @ 2020-09-03 21:36 市丸银阅读(306) 评论(0) 推荐(0) 编辑

MapTask 并行度决定机制

摘要： 1、区分数据块：物理数据切片：逻辑 2、决定机制 1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定2、一个切片对应一个MapTask3、默认情况下，切片大小==BlockSize(128M)4、切片时不考虑数据集整体性，而是针对每个文件单独切片总结：MapTask的数阅读全文

posted @ 2020-09-03 17:09 市丸银阅读(327) 评论(0) 推荐(0) 编辑

Java 工作

摘要：因工作需要由python工程师->java工程师也算圆了大学时的梦想一、Bean // 依赖 mybatis mybatis-plus @TableName("tp_abcdr") @Data @NoArgsConstructor @JsonInclude(JsonInclude.Includ 阅读全文

posted @ 2020-09-03 15:53 市丸银阅读(142) 评论(0) 推荐(0) 编辑

Hadoop 流量案例

摘要：一、需求统计每一个手机号耗费的总上行流量、下行流量、总流量二、分析 1、输入内容 1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 200 2 13846544121 192.196.100.2 264 0 200 3 13956435 阅读全文

posted @ 2020-09-03 14:44 市丸银阅读(192) 评论(0) 推荐(0) 编辑

Hadoop 序列化

摘要：一、优点 1、紧凑：节省内存 2、快速：读取速度快 3、可扩展：随着协议升级 4、互操作：支持多语言交互二、Bean对象实现序列化 1、步骤 a、必须实现Writable接口 b、必须有空参构造，反序列化时，反射调用 c、重写序列化方法 d、重写反序列化方法 e、序列化方法和反序列化方法参数顺序要阅读全文

posted @ 2020-09-03 08:00 市丸银阅读(209) 评论(0) 推荐(0) 编辑

Java 和 Hadoop的数据类型

摘要： Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long LongWritable double DoubleWritable String 阅读全文

posted @ 2020-09-03 07:08 市丸银阅读(292) 评论(0) 推荐(0) 编辑

市丸银

知行合一

公告