读书笔记《Hadoop开源云计算平台》

HDFS-Hadoop Distributed File System，对大文件效率高，小文件效率低。和普通本地的文件系统区别在于HDFS中的文件是分布在多台计算机上的，并且访问文件需要通过HDFS中的NameNode来访问。比如一个文件1g，被分成了10份分别保存在计算机01-10中，当客户端要获取这个文件时，会发生：

客户端request到NameNode
NameNode返回这个文件分布情况：会返回一堆DataNode列表和文件block对应关系
1. DataNode就是保存文件block的各个计算机，就是数据节点
2. 客户端得知文件信息后，就直接和DataNode联系拿数据

在一个HDFS集群中，如果NameNode down了，那HDFS也就down了

在一个HDFS集群中，如果单个DataNode down了，HDFS照样提供服务。

HDFS有Secondary NameNode，可以用来合并NameNode的日志等操作

Zookeeper是这对分布式应用的分布式协作服务器

数据库服务

HBase，数据库服务，由1个HMaster和多个HRegion组成，它能快速读取、保存大表，是个基于列保存的系统

比如保存一行：rowId, A, B, Cè{001, A1Content, BContent, CContent}，HBase会将这一行数据拆分成3块，分别保存进HRegion001-003这3个计算机节点中（如果C列为null，则根本不会做保存这个动作）

缺点

不能使用join等关系型数据库的语法
如果要使用join等操作，需要自己写MapReduce来合并结果，比较麻烦
不支持SQL查询

Hive, 数据库服务，能够使用HSQL语句（类似SQL语法），能够join、group by等，并且能自动进行MapReduce操作（更加智能）

CloudBase，数据仓库服务，支持SQL查询

MapReduce简化

Pig语言能够通过写脚本实现MapReduce功能，比较方便。
Eclipse有个MapReduce的插件，可以简化MapReduce程序的开发。

posted @ 2013-04-29 14:03 McKay 阅读(510) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 地球OL攻略 —— 某应届生求职总结
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 提示词工程——AI应用必不可少的技术
· .NET周刊【3月第1期 2025-03-02】

历史上的今天：
2011-04-29 如何提升开发效率

公告

前后合璧，架构完整。
A2D科技，服务社会。

A2D Framework
Rule Engine(规则引擎) Sword(WCF终结者) Sword(.net core 2.0) SplitTable(分表DAO)

昵称： McKay
园龄： 15年9个月
粉丝： 403
关注： 33

+加关注

2013年4月

日

一

二

三

四

五

六

McKay

读书笔记《Hadoop开源云计算平台》

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论