随笔分类 -  大数据

大数据笔记13:Hadoop安装之Hadoop的配置安装
摘要:1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo... 阅读全文

posted @ 2015-09-22 09:40 鸿钧老祖 阅读(204) 评论(0) 推荐(0) 编辑

大数据笔记12:Hadoop安装之安装JDK
摘要:去官网下载jdk 阅读全文

posted @ 2015-09-21 10:35 鸿钧老祖 阅读(103) 评论(0) 推荐(0) 编辑

大数据笔记11:MapReduce的运行流程
摘要:1.基本概念(1)Job & Task(2)JobTracker(3)TaskTracker 阅读全文

posted @ 2015-09-21 09:46 鸿钧老祖 阅读(143) 评论(0) 推荐(0) 编辑

大数据笔记10:大数据之Hadoop的MapReduce的原理
摘要:1. MapReduce(并行处理的框架)思想:分而治之,一个大任务分解成多个小的子任务(map),并行执行后,合并结果(Reduce)(1)大任务分解成多个小任务,这个过程就是map;(2)多个小任务结果的合并,这个过程就是Reduce;2.通过一个案例说明MapReduce思想如下: 一副牌... 阅读全文

posted @ 2015-09-20 11:02 鸿钧老祖 阅读(364) 评论(0) 推荐(0) 编辑

大数据笔记09:大数据之Hadoop的HDFS使用
摘要:1. HDFS使用:HDFS内部中提供了Shell接口,所以我们可以以命令行的形式操作HDFS 阅读全文

posted @ 2015-09-20 09:55 鸿钧老祖 阅读(144) 评论(0) 推荐(0) 编辑

大数据笔记08:云计算(云)
摘要:1. 什么是云计算?(通俗一点) (1)说的明白一点: 云计算其实就是最大限度得发挥网络的资源。 可能上面有点抽象,下面为了更好理解什么是云计算,先从一段对话开始。 张三:我们公司的资料不让存放到个人电脑上,一般都存到云上。 李四:别逗了,你们单位就二十几个人,两台服务器,没有虚拟化也没有分布式,能 阅读全文

posted @ 2015-09-20 09:07 鸿钧老祖 阅读(424) 评论(0) 推荐(0) 编辑

大数据笔记07:大数据之Hadoop的HDFS(特点)
摘要:1. HDFS的特点:(1)数据冗余,硬件容错(2)流式的数据访问(写一次读多次,不能直接修改已写入的数据,只能删除之后再去写入)(3)存储大文件2. HDFS适用性和局限性适用性:(1)适合数据批量读写,吞吐量高 (2)适合一次写入多次读取,顺序读写局限性:(1)不适合交互式应用,低延迟很慢满足(... 阅读全文

posted @ 2015-09-16 19:35 鸿钧老祖 阅读(353) 评论(0) 推荐(0) 编辑

大数据笔记06:大数据之Hadoop的HDFS(文件的读写操作)
摘要:1. 首先我们看一看文件读取:(1)客户端(java程序、命令行等等)向NameNode发送文件读取请求,请求中包含文件名和文件路径,让NameNode查询元数据。(2)接着,NameNode返回元数据给客户端,告诉客户端请求的文件包含哪些块以及这些块位置(块在哪些DataNode中可以找到)。比如... 阅读全文

posted @ 2015-09-16 19:24 鸿钧老祖 阅读(198) 评论(0) 推荐(0) 编辑

大数据笔记05:大数据之Hadoop的HDFS(数据管理策略)
摘要:HDFS中数据管理与容错1.数据块的放置 每个数据块3个副本,就像上面的数据库A一样,这是因为数据在传输过程中任何一个节点都有可能出现故障(没有办法,廉价机器就是这样的),为了保证数据不能丢失,所以存在3个副本,这样保证了硬件上的容错,保证数据传递过程中准确性。 3个副本数据,放在两... 阅读全文

posted @ 2015-09-16 18:38 鸿钧老祖 阅读(408) 评论(0) 推荐(0) 编辑

大数据笔记04:大数据之Hadoop的HDFS(基本概念)
摘要:1.HDFS是什么?Hadoop分布式文件系统(HDFS),被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。2.HDFS中的基本概念(1)块(block) " 块 " 是固定大小的存储单元,HDFS的文件被分成块进行存储,... 阅读全文

posted @ 2015-09-16 17:04 鸿钧老祖 阅读(210) 评论(0) 推荐(0) 编辑

大数据笔记03:大数据之Hadoop的安装
摘要:1.安装Hadoop(1)准备Linux环境(2)安装JDK(3)配置Hadoop2.准备Linux环境(1)我们用户可能都是使用Windows环境,一般用户都是先安装虚拟机,然后在虚拟机上安装Linux系统,这个这里不推荐。(2)这里我们使用租用云主机方法,比如阿里云、UnitedStack等等。... 阅读全文

posted @ 2015-09-16 16:47 鸿钧老祖 阅读(128) 评论(0) 推荐(0) 编辑

大数据笔记02:大数据之Hadoop的生态系统和版本
摘要:1.Hadoop的生态系统:(1)图1:(2)图2:图1 和 图2 都是形象说明了Hadoop的生态圈。2.举例介绍Hadoop生态圈的小工具:(1)Hive工具(中文意思:小蜜蜂)利用Hive这个工具,不用编写复杂的Hadoop程序,只需要编写一个SQL语句,Hive就会把你编写的SQL语句转化为... 阅读全文

posted @ 2015-09-16 15:54 鸿钧老祖 阅读(328) 评论(0) 推荐(0) 编辑

大数据笔记01:大数据之Hadoop简介
摘要:1. 背景随着大数据时代来临,人们发现数据越来越多。但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量、读写速率、计算效率等等,这些单机PC无法满足要求。2. 为解决这些存储容量、读写速率、计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这... 阅读全文

posted @ 2015-09-16 15:41 鸿钧老祖 阅读(340) 评论(0) 推荐(0) 编辑

导航