摘要:1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo...
阅读全文
摘要:1.基本概念(1)Job & Task(2)JobTracker(3)TaskTracker
阅读全文
摘要:1. MapReduce(并行处理的框架)思想:分而治之,一个大任务分解成多个小的子任务(map),并行执行后,合并结果(Reduce)(1)大任务分解成多个小任务,这个过程就是map;(2)多个小任务结果的合并,这个过程就是Reduce;2.通过一个案例说明MapReduce思想如下: 一副牌...
阅读全文
摘要:1. HDFS使用:HDFS内部中提供了Shell接口,所以我们可以以命令行的形式操作HDFS
阅读全文
摘要:1. 什么是云计算?(通俗一点) (1)说的明白一点: 云计算其实就是最大限度得发挥网络的资源。 可能上面有点抽象,下面为了更好理解什么是云计算,先从一段对话开始。 张三:我们公司的资料不让存放到个人电脑上,一般都存到云上。 李四:别逗了,你们单位就二十几个人,两台服务器,没有虚拟化也没有分布式,能
阅读全文
摘要:1. HDFS的特点:(1)数据冗余,硬件容错(2)流式的数据访问(写一次读多次,不能直接修改已写入的数据,只能删除之后再去写入)(3)存储大文件2. HDFS适用性和局限性适用性:(1)适合数据批量读写,吞吐量高 (2)适合一次写入多次读取,顺序读写局限性:(1)不适合交互式应用,低延迟很慢满足(...
阅读全文
摘要:1. 首先我们看一看文件读取:(1)客户端(java程序、命令行等等)向NameNode发送文件读取请求,请求中包含文件名和文件路径,让NameNode查询元数据。(2)接着,NameNode返回元数据给客户端,告诉客户端请求的文件包含哪些块以及这些块位置(块在哪些DataNode中可以找到)。比如...
阅读全文
摘要:HDFS中数据管理与容错1.数据块的放置 每个数据块3个副本,就像上面的数据库A一样,这是因为数据在传输过程中任何一个节点都有可能出现故障(没有办法,廉价机器就是这样的),为了保证数据不能丢失,所以存在3个副本,这样保证了硬件上的容错,保证数据传递过程中准确性。 3个副本数据,放在两...
阅读全文
摘要:1.HDFS是什么?Hadoop分布式文件系统(HDFS),被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。2.HDFS中的基本概念(1)块(block) " 块 " 是固定大小的存储单元,HDFS的文件被分成块进行存储,...
阅读全文
摘要:1.安装Hadoop(1)准备Linux环境(2)安装JDK(3)配置Hadoop2.准备Linux环境(1)我们用户可能都是使用Windows环境,一般用户都是先安装虚拟机,然后在虚拟机上安装Linux系统,这个这里不推荐。(2)这里我们使用租用云主机方法,比如阿里云、UnitedStack等等。...
阅读全文
摘要:1.Hadoop的生态系统:(1)图1:(2)图2:图1 和 图2 都是形象说明了Hadoop的生态圈。2.举例介绍Hadoop生态圈的小工具:(1)Hive工具(中文意思:小蜜蜂)利用Hive这个工具,不用编写复杂的Hadoop程序,只需要编写一个SQL语句,Hive就会把你编写的SQL语句转化为...
阅读全文
摘要:1. 背景随着大数据时代来临,人们发现数据越来越多。但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量、读写速率、计算效率等等,这些单机PC无法满足要求。2. 为解决这些存储容量、读写速率、计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这...
阅读全文