大数据 - 随笔分类 - 鸿钧老祖

大数据笔记13：Hadoop安装之Hadoop的配置安装

摘要：1.准备Linux环境 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.8.0 子网掩码：255.255.255.0 -> apply -> ok 回到windo... 阅读全文

posted @ 2015-09-22 09:40 鸿钧老祖阅读(204) 评论(0) 推荐(0) 编辑

大数据笔记12：Hadoop安装之安装JDK

摘要：去官网下载jdk 阅读全文

posted @ 2015-09-21 10:35 鸿钧老祖阅读(103) 评论(0) 推荐(0) 编辑

大数据笔记11：MapReduce的运行流程

摘要：1.基本概念（1）Job & Task（2）JobTracker（3）TaskTracker 阅读全文

posted @ 2015-09-21 09:46 鸿钧老祖阅读(143) 评论(0) 推荐(0) 编辑

大数据笔记10：大数据之Hadoop的MapReduce的原理

摘要：1. MapReduce（并行处理的框架）思想：分而治之，一个大任务分解成多个小的子任务（map），并行执行后，合并结果（Reduce）（1）大任务分解成多个小任务，这个过程就是map；（2）多个小任务结果的合并，这个过程就是Reduce；2.通过一个案例说明MapReduce思想如下：一副牌... 阅读全文

posted @ 2015-09-20 11:02 鸿钧老祖阅读(364) 评论(0) 推荐(0) 编辑

大数据笔记09：大数据之Hadoop的HDFS使用

摘要：1. HDFS使用：HDFS内部中提供了Shell接口，所以我们可以以命令行的形式操作HDFS 阅读全文

posted @ 2015-09-20 09:55 鸿钧老祖阅读(144) 评论(0) 推荐(0) 编辑

大数据笔记08：云计算（云）

摘要：1. 什么是云计算？（通俗一点）（1）说的明白一点：云计算其实就是最大限度得发挥网络的资源。可能上面有点抽象，下面为了更好理解什么是云计算，先从一段对话开始。张三：我们公司的资料不让存放到个人电脑上，一般都存到云上。李四：别逗了，你们单位就二十几个人，两台服务器，没有虚拟化也没有分布式，能阅读全文

posted @ 2015-09-20 09:07 鸿钧老祖阅读(424) 评论(0) 推荐(0) 编辑

大数据笔记07：大数据之Hadoop的HDFS（特点）

摘要：1. HDFS的特点：（1）数据冗余，硬件容错（2）流式的数据访问（写一次读多次，不能直接修改已写入的数据，只能删除之后再去写入）（3）存储大文件2. HDFS适用性和局限性适用性：（1）适合数据批量读写，吞吐量高（2）适合一次写入多次读取，顺序读写局限性：（1）不适合交互式应用，低延迟很慢满足（... 阅读全文

posted @ 2015-09-16 19:35 鸿钧老祖阅读(353) 评论(0) 推荐(0) 编辑

大数据笔记06：大数据之Hadoop的HDFS（文件的读写操作）

摘要：1. 首先我们看一看文件读取：（1）客户端（java程序、命令行等等）向NameNode发送文件读取请求，请求中包含文件名和文件路径，让NameNode查询元数据。（2）接着，NameNode返回元数据给客户端，告诉客户端请求的文件包含哪些块以及这些块位置（块在哪些DataNode中可以找到）。比如... 阅读全文

posted @ 2015-09-16 19:24 鸿钧老祖阅读(198) 评论(0) 推荐(0) 编辑

大数据笔记05：大数据之Hadoop的HDFS（数据管理策略）

摘要：HDFS中数据管理与容错1.数据块的放置每个数据块3个副本，就像上面的数据库A一样，这是因为数据在传输过程中任何一个节点都有可能出现故障（没有办法，廉价机器就是这样的），为了保证数据不能丢失，所以存在3个副本，这样保证了硬件上的容错，保证数据传递过程中准确性。 3个副本数据，放在两... 阅读全文

posted @ 2015-09-16 18:38 鸿钧老祖阅读(408) 评论(0) 推荐(0) 编辑

大数据笔记04：大数据之Hadoop的HDFS（基本概念）

摘要：1.HDFS是什么？Hadoop分布式文件系统(HDFS)，被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。2.HDFS中的基本概念（1）块（block） " 块 " 是固定大小的存储单元，HDFS的文件被分成块进行存储，... 阅读全文

posted @ 2015-09-16 17:04 鸿钧老祖阅读(210) 评论(0) 推荐(0) 编辑

大数据笔记03：大数据之Hadoop的安装

摘要：1.安装Hadoop（1）准备Linux环境（2）安装JDK（3）配置Hadoop2.准备Linux环境（1）我们用户可能都是使用Windows环境，一般用户都是先安装虚拟机，然后在虚拟机上安装Linux系统，这个这里不推荐。（2）这里我们使用租用云主机方法，比如阿里云、UnitedStack等等。... 阅读全文

posted @ 2015-09-16 16:47 鸿钧老祖阅读(128) 评论(0) 推荐(0) 编辑

大数据笔记02：大数据之Hadoop的生态系统和版本

摘要：1.Hadoop的生态系统：（1）图1：（2）图2：图1 和图2 都是形象说明了Hadoop的生态圈。2.举例介绍Hadoop生态圈的小工具：（1）Hive工具（中文意思：小蜜蜂）利用Hive这个工具，不用编写复杂的Hadoop程序，只需要编写一个SQL语句，Hive就会把你编写的SQL语句转化为... 阅读全文

posted @ 2015-09-16 15:54 鸿钧老祖阅读(328) 评论(0) 推荐(0) 编辑

大数据笔记01：大数据之Hadoop简介

摘要：1. 背景随着大数据时代来临，人们发现数据越来越多。但是如何对大数据进行存储与分析呢？单机PC存储和分析数据存在很多瓶颈，包括存储容量、读写速率、计算效率等等，这些单机PC无法满足要求。2. 为解决这些存储容量、读写速率、计算效率等等问题，google大数据技术开发了三大革命性技术解决这些问题，这... 阅读全文

posted @ 2015-09-16 15:41 鸿钧老祖阅读(340) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据