摘要: MR(MapReduce)运行过程 client程序--》提交job至JobTracker--》分配job ID--》JobTracker检查输入文件存在,输出文件不存在--》进行输入分片--》Jobtracker分配资源--》初始化job(初始化就是创建一个正在运行的job对象(封装任务和记录信息 阅读全文
posted @ 2017-07-24 08:59 学习记录_Lxb 阅读(215) 评论(0) 推荐(0) 编辑
摘要: HDFS的IO操作 1.数据完整性 为了保证数据的完整性,一般采用数据校验技术: 1、奇偶校验技术 2、md5,sha1等校验技术 3、CRC-32循环冗余校验技术 4、ECC内存纠错校验技术HDFS数据完整性 1、HDFS以透明方式校验所有写入的数据,可以通过io.bytes.per.checks 阅读全文
posted @ 2017-07-21 09:00 学习记录_Lxb 阅读(141) 评论(0) 推荐(0) 编辑
摘要: master/slave主从结构: HDFS是一个 master/slave的架构。HDFS只有一个NameNode,即master。master负责管理文件系统命名空间和client对文件的访问。此外,HDFS有很多DataNode,通常一个机器节点一个DataNode,管理这个节点上的存储。HD 阅读全文
posted @ 2017-07-20 08:59 学习记录_Lxb 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop.apache.org //hadoop官网 2.hadoop框架 (1)mapreduce 分布式批处理方式 --java编写程序任务,在hadoop以任务方式执行 (2)hadoop distributed file system hdfs分布式存储(一般存的是不可变的数据) ( 阅读全文
posted @ 2017-07-18 20:48 学习记录_Lxb 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 1.结构化数据 非结构化数据 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。 字段可根据需要扩充,即字段数目不定 阅读全文
posted @ 2017-07-17 20:43 学习记录_Lxb 阅读(235) 评论(0) 推荐(0) 编辑