摘要: 一、代码结构 新接口的代码结构: 启动作业的命令: hadoop jar myjob.jar com.test.MaxTemperature -conf conf/tempConf,xml in/ncdn/1990 out/ncnd/1990 获取输出命令: hadoop fs -getmerge 阅读全文
posted @ 2015-01-08 20:07 lihui1625 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS数据完整性保证 1、DataNode在读取和写入的时候验校验和 2、后台线程DataBlockScanner 也会检查校验和 3、若检查到检验和错误,则报告namenode,自动进行删除、复制、恢复操作。 二、压缩 1、好处:减少存储的磁盘空间;加速数据在网络和磁盘上的传输。 2、支持切 阅读全文
posted @ 2015-01-08 19:47 lihui1625 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 一、适合 HDFS 的场合 1、超大文件:几百MB、几百GB、几百TB、PB 2、流式访问:一次写入,多次访问 3、商用硬件:不昂贵,可以容忍故障 二、不适合HDFS的场合 1、低时间延迟的数据访问 (可以用HBase) 2、大量的小文件:将耗尽NameNode 的内存 3、多用户写入,任意修改文件 阅读全文
posted @ 2015-01-08 18:58 lihui1625 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 一、并行计算遇到的问题 1、难以将任务分成相同大小的作业块 2、将独立进程运行的结果合并后,可能还需要进一步的处理 3、依旧受限于一台计算机的处理能力 二、MapReduce Job 的一些特点 1、MapReduce job 的定义:客户端要执行的一个工作单元,包括输入数据、MapReduce程序 阅读全文
posted @ 2015-01-08 18:23 lihui1625 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 大数据处理遇到问题: (1)、磁盘存储容量快速增加,但是访问速度进步不大;用户乐意使用磁盘共享访问。 (2)、硬件故障,可以使用备份解决。 (3)、分布式系统,需要可靠性。 关系数据库与MapReduce比较: (1)、磁盘寻址时间提高远低于传输速率;流式读取取决于传输速率;在数据库更新大部分数据时 阅读全文
posted @ 2015-01-08 17:58 lihui1625 阅读(107) 评论(0) 推荐(0) 编辑