摘要: 一.MapReduce简介 MapReduce是一个分布式运算程序的编程框架,它的核心功能是将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。引入MapReduce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发商,而将分布式计算的复杂性交由框 阅读全文
posted @ 2020-08-22 10:25 尧啊尧 阅读(186) 评论(0) 推荐(0)
摘要: 1.hadoop架构 (1) hdfs => hadoop file system a.将文件拆分存储:hadoop 2.x 1) 每个文件拆分成128兆每个文件篇存储在不同的节点上 2) 比如300兆的文件会被拆分成:128 128 44 b. 缺点 1) 不适合低延时(毫秒以下) 2) 不适合大 阅读全文
posted @ 2020-08-22 09:25 尧啊尧 阅读(112) 评论(0) 推荐(0)
摘要: 1.大数据 (1) 概念 a.无法在一定时间内通过常规软件进行抓取、管理和处理的数据 b.解决海量数据的存储和计算问题 (2)特性:数量大Volume,增长快Velocity,种类多Variety,价密低Value (3)固有特性:时效性,不可改变性 (4)分布式计算 a.传统分布式: 1) 多数据 阅读全文
posted @ 2020-08-22 09:23 尧啊尧 阅读(204) 评论(0) 推荐(0)
摘要: 开始之前分别在bigdata与install目录下创建子目录hadoop 通过xftp将hadoop压缩包上传到install目录下的hadoop目录中 随后将hadoop压缩包解压到bigdata目录下的hadoop目录中 并改名为hadoop260 注意:IP地址应为主机的地址 ######## 阅读全文
posted @ 2020-08-22 09:20 尧啊尧 阅读(134) 评论(0) 推荐(0)