2018年4月25日

zookeeper搭建和脚本编写

摘要: hadoop: hdfs:分布式存储 MR: 分布式计算 hdfs: ========================= 1、namenode(元数据)、datanode(真实数据)、2nn(检查点) 2、hadoop-daemon.sh start namenode //启动本机进程 hadoop-daemons.sh start da... 阅读全文

posted @ 2018-04-25 16:02 飞机耳朵 阅读(313) 评论(0) 推荐(0) 编辑

HA高可用配置-Json-远程调试-聚类距离

摘要: join: Map端join //大表+小表,只需要map Reduce端join //大表+大表,需要Map和Reduce //设计组合key和flag //分组对比器 Json: fastJson技术 JSON.parseObject(str) //将string转成jsonObject ... 阅读全文

posted @ 2018-04-25 15:59 飞机耳朵 阅读(171) 评论(0) 推荐(0) 编辑

MR排序和输入输出格式

摘要: mapreduce作业提交流程: 1、配置文件 //输入输出格式(TextInput(output)Format) 2、job.waitforcompletion 3、submit 4、int map = split.size 1)、看文件格式,textFile 判断文件的压缩编解码器(文件名后缀),如果是压缩... 阅读全文

posted @ 2018-04-25 13:46 飞机耳朵 阅读(1192) 评论(0) 推荐(0) 编辑

MR job提交流程和切片算法

摘要: Mapreduce: 编程模型,适用于分布式计算 Map: 映射 预处理 Reduce: 化简 聚合 shuffle: 网络间分发 combiner: Map端的reduce partitioner: 分区,默认hash分区 combiner: 适合最大值,最小值 ... 阅读全文

posted @ 2018-04-25 13:44 飞机耳朵 阅读(984) 评论(0) 推荐(0) 编辑

2018年4月22日

java-NIO编程和线程池

摘要: ByteBuffer 1.介绍 字节缓冲区,内部封装的是数组。 [属性] a)capacity 容量,缓冲区的总大小。 b)position 位置,当前指针的位置。数组的下标值。 c)limit 限制,对缓冲区使用的限制,前n个可以使用的元素个数, 也可以理解为第一个不能使用的元素下标值,默认是容量 阅读全文

posted @ 2018-04-22 20:07 飞机耳朵 阅读(2793) 评论(0) 推荐(0) 编辑

2018年4月21日

hadoop中hdfs写入流程

摘要: hdfs写入数据流程总结: 1、通过配置文件获取DistributedFileSystem实例 2、初始化校验和类型和大小 > 类型CRC32C,大小4byte //对每个chunk进行校验,chunk大小512字节 3、创建namenode元数据: 在DFSOutputStream中dfsClie 阅读全文

posted @ 2018-04-21 11:33 飞机耳朵 阅读(1138) 评论(0) 推荐(0) 编辑

Maven私服和机架感知黑白名单

摘要: Maven: 构建工具(build):打包,导包,版本控制 mvn clean: 删除target文件夹 compile: 编译 package: 打包 mvn archetype:generate //生成项目骨架 maven的三级定位: groupId //org.apache.hadoop a 阅读全文

posted @ 2018-04-21 11:12 飞机耳朵 阅读(578) 评论(0) 推荐(0) 编辑

hadoop多节点配置,压缩,序列化,快照,回收站

摘要: 节点的多目录配置: namenode:配置两个文件夹为工作目录(容错) //两文件夹数据相同 datanode:配置两个文件夹为工作目录(扩容) //两文件夹数据不同 namenode配置:hdfs-site.xml <property> <name>dfs.namenode.name.dir</n 阅读全文

posted @ 2018-04-21 11:01 飞机耳朵 阅读(162) 评论(0) 推荐(0) 编辑

hadoop块理论配置Secondarynamenod

摘要: hdfs数据块切割理论 hdfs中所有的文件都是以块为单位进行存储,一个块最大128M 块大小:数据寻道时间占用传输时间的1% 廉价硬件:普通的硬盘,普通的cpu等等 使用软件级别高可用替代硬件级别的高可用 去IOE活动:I:IBM小型机 33万人民币 O:Oracle 1核10W美元 E:EMC共 阅读全文

posted @ 2018-04-21 10:48 飞机耳朵 阅读(965) 评论(0) 推荐(0) 编辑

hadoop完全分布式搭建

摘要: hadoop四大模块:common //hadoop核心类库hdfs //分布式存储模块mapreduce //分布式计算模块yarn //资源调度模块 hadoop相关端口:hdfs: namenode(50070) //名称节点 datanode(50075) //数据节点 secondaryn 阅读全文

posted @ 2018-04-21 10:39 飞机耳朵 阅读(137) 评论(0) 推荐(0) 编辑

导航