随笔分类 -  Hadoop

摘要:安装步骤: 1) JDK -- Hadoop是用Java写的,不安装Java虚拟机怎么运行Hadoop的程序; 2)创建专门用于运行和执行hadoop任务(比如map和reduce任务)的linux用户,就像windows下的服务账户,并且授权给他可以访问运行JDK目录权限,让他可以执行java虚拟 阅读全文
posted @ 2016-02-17 22:20 Jerry_Chen 阅读(1112) 评论(0) 推荐(2) 编辑
摘要:Hadoop的运行模式可分为单机模式、伪分布模式和分布模式。首先无论哪种模式都需要安装JDK的,这一步之前的随笔Ubuntu 14.04 LTE下安装JDK 1.8中已经做了。这里就不多说了。其次是安装SSH。安装SSH是为了每次可以免密码登陆数据节点服务器。因为集群的环境下,每次登陆到数据节点服务... 阅读全文
posted @ 2015-12-27 12:12 Jerry_Chen 阅读(244) 评论(0) 推荐(0) 编辑
摘要:HIVE的由来:最初由Facebook基于HDFS开发出来的一套数据仓库工具。HIVE可以干什么?HIVE可以将已经结构化的数据映射成一张表,然后可以使用HIVE语言像写T-SQL一样查询数据。而实际上,最后的HQL语句是被解析成了MapReduce任务去执行数据抽取、转换和加载工作。HIVE的特点... 阅读全文
posted @ 2015-11-28 22:22 Jerry_Chen 阅读(201) 评论(0) 推荐(0) 编辑
摘要:HBase是源于Google的Bigtable理念。它的特点是:稀疏,非结构化,列存储,多维度;稀疏:把一些可能没有关系(从自然界实体的理解上)数据都存储到一张表这样的设计理念的结果就是某些列只在某些行上面有值。比如我们把原本应该在关系数据库中作为不同实体存在而把数据存放在不同的实体表中的“汽车”和... 阅读全文
posted @ 2015-11-21 14:52 Jerry_Chen 阅读(223) 评论(0) 推荐(0) 编辑
摘要:HDFS全称是Hadoop Distributed File System。作为分布式文件系统,具有高容错性的特点。它放宽了POSIX对于操作系统接口的要求,可以直接以流(Stream)的形式访问文件系统中的数据。HDFS能快速检测到硬件故障,也就是数据节点的Failover,并且自动恢复数据访问。... 阅读全文
posted @ 2015-11-08 22:03 Jerry_Chen 阅读(362) 评论(0) 推荐(0) 编辑
摘要:对于MapReduce模型的实现,有Java等一些语言实现了接口,或者用像Hive/Pig这样的平台来操作。MapReduce由Map函数、Reduce函数和Main函数实现。第一步,源数据文件按默认文件系统块大小分割成M个数据块后传给M个Map函数,M个Map函数分布在N台机器上。Map函数接受两... 阅读全文
posted @ 2015-10-18 12:35 Jerry_Chen 阅读(461) 评论(0) 推荐(0) 编辑
摘要:刚好看到关于Name node/Data node和Job tracker/Task tracker的解释,一开始有点混淆,以为说Job tracker必须运行在Name node上,他们俩有依赖或者从属关系。其实不是这样的。他们间的区别在于1)Name node/Data node是HTFS层面上... 阅读全文
posted @ 2015-10-06 12:50 Jerry_Chen 阅读(771) 评论(0) 推荐(0) 编辑
摘要:Hadoop是什么?1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distribut... 阅读全文
posted @ 2015-10-05 18:43 Jerry_Chen 阅读(200) 评论(0) 推荐(0) 编辑
摘要:今天开始学习Hadoop这门热门的数据库技术。直接从被奉为Hadoop圣经的《Hadoop The Definitive Guide 4th Edition》入手。第一章作者写到一个关于分布型数据库系统在处理数据分割时的两种方法:1)按照某个单位(诸如年份或者数值范围);2)均匀分割所有数据到若干份... 阅读全文
posted @ 2015-10-05 13:29 Jerry_Chen 阅读(1525) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示