2015 年 1月 8 日随笔档案 - lihui1625

2015年1月8日

摘要：一、代码结构新接口的代码结构：启动作业的命令： hadoop jar myjob.jar com.test.MaxTemperature -conf conf/tempConf,xml in/ncdn/1990 out/ncnd/1990 获取输出命令： hadoop fs -getmerge 阅读全文

posted @ 2015-01-08 20:07 lihui1625 阅读(89) 评论(0) 推荐(0) 编辑

笔记：Hadoop权威指南第4章 Hadoop I/O

摘要：一、HDFS数据完整性保证 1、DataNode在读取和写入的时候验校验和 2、后台线程DataBlockScanner 也会检查校验和 3、若检查到检验和错误，则报告namenode，自动进行删除、复制、恢复操作。二、压缩 1、好处：减少存储的磁盘空间；加速数据在网络和磁盘上的传输。 2、支持切阅读全文

posted @ 2015-01-08 19:47 lihui1625 阅读(80) 评论(0) 推荐(0) 编辑

笔记：Hadoop权威指南第3章 HDFS

摘要：一、适合 HDFS 的场合 1、超大文件：几百MB、几百GB、几百TB、PB 2、流式访问：一次写入，多次访问 3、商用硬件：不昂贵，可以容忍故障二、不适合HDFS的场合 1、低时间延迟的数据访问 (可以用HBase) 2、大量的小文件：将耗尽NameNode 的内存 3、多用户写入，任意修改文件阅读全文

posted @ 2015-01-08 18:58 lihui1625 阅读(122) 评论(0) 推荐(0) 编辑

笔记：Hadoop权威指南第2章关于MapReduce

摘要：一、并行计算遇到的问题 1、难以将任务分成相同大小的作业块 2、将独立进程运行的结果合并后，可能还需要进一步的处理 3、依旧受限于一台计算机的处理能力二、MapReduce Job 的一些特点 1、MapReduce job 的定义：客户端要执行的一个工作单元，包括输入数据、MapReduce程序阅读全文

posted @ 2015-01-08 18:23 lihui1625 阅读(83) 评论(0) 推荐(0) 编辑

笔记：Hadoop权威指南第1章初识Hadoop

摘要：大数据处理遇到问题： (1)、磁盘存储容量快速增加，但是访问速度进步不大；用户乐意使用磁盘共享访问。 (2)、硬件故障，可以使用备份解决。 (3)、分布式系统，需要可靠性。关系数据库与MapReduce比较： (1)、磁盘寻址时间提高远低于传输速率；流式读取取决于传输速率；在数据库更新大部分数据时阅读全文

posted @ 2015-01-08 17:58 lihui1625 阅读(107) 评论(0) 推荐(0) 编辑

公告