摘要:
一、TextInputFormat 1、TextInputFormat是默认的FileInputFormat的实现类。2、按行读取每条记录。3、键:存储该行在整个文件中起始字节偏移量,LongwWritable类型4、值:这行的内容,不包含任何行终止符(换行符和回车符),Text类型 注意:键的值: 阅读全文
摘要:
一、核心代码(依托于自定义的WordCount) 1、位置 在设置输入和输出路径前 2、代码 // 设置 job.setInputFormatClass(CombineTextInputFormat.class); CombineTextInputFormat.setMaxInputSplitSiz 阅读全文
摘要:
一、FileInputFormat切片机制 1、简单的按照文件长度进行切片 2、切片大小,默认值为BlockSize 3、切片时不考虑整体数据,而是逐个针对单一文件切片 二、CombineTextInputFormat切片机制 A、产生原因: 处理大量单独的小文件,每个小文件都会产生一个MapTas 阅读全文
摘要:
1、区分 数据块: 物理数据切片: 逻辑 2、决定机制 1、一个Job的Map阶段并行度(数量)由客户端提交Job时的切片数量决定2、一个切片对应一个MapTask3、默认情况下,切片大小==BlockSize(128M)4、切片时不考虑数据集整体性,而是针对每个文件单独切片总结:MapTask的数 阅读全文
摘要:
因工作需要 由python工程师->java工程师 也算圆了大学时的梦想 一、Bean // 依赖 mybatis mybatis-plus @TableName("tp_abcdr") @Data @NoArgsConstructor @JsonInclude(JsonInclude.Includ 阅读全文
摘要:
一、需求 统计每一个手机号耗费的总上行流量、下行流量、总流量 二、分析 1、输入内容 1 13736230513 192.196.100.1 www.atguigu.com 2481 24681 200 2 13846544121 192.196.100.2 264 0 200 3 13956435 阅读全文
摘要:
一、优点 1、紧凑:节省内存 2、快速:读取速度快 3、可扩展:随着协议升级 4、互操作:支持多语言交互 二、Bean对象实现序列化 1、步骤 a、必须实现Writable接口 b、必须有空参构造,反序列化时,反射调用 c、重写序列化方法 d、重写反序列化方法 e、序列化方法和反序列化方法参数顺序要 阅读全文
摘要:
Java类型 Hadoop Writable类型 boolean BooleanWritable byte ByteWritable int IntWritable float FloatWritable long LongWritable double DoubleWritable String 阅读全文