hadoop知识点总结

(一)、hadoop的内置数据类型都实现了writablecompareable,以便序列化和网络传输及文件存储

a自定义数据类型作为输入

1.实现writable接口

2.如果给数据需要比较大小时,实现writablecompareable接口

b数据输入格式和recordreader

 

数据输入格式(inputformat)用于描述maoreduce作业中的数据输入规范,mapreduce依靠数据输入规范完成数据文件的输入分块(inputsplit),从输入分块中将数据记录逐一读出,并转换为map过程中的输入键值对

自定义输入格式:https://blog.csdn.net/young_so_nice/article/details/51307213

                         https://blog.csdn.net/bbaiggey/article/details/53324218

 流程: 1.自定义XXinputformat继承FileTextFormat,在createRecordReader方法里面返回自定义的XXRecordreader

    2.自定义XXRecordreader继承RecordReader,在setkeyvalue和nextkeyvalue实现自身需求

    3.在main函数的运行中指定输入格式:job.setInputFormatClass(XXinputformat.class)

posted @ 2019-02-26 13:26  ccdh  阅读(650)  评论(0编辑  收藏  举报