BigData 学习记录（二）

1.hadoop.apache.org //hadoop官网

2.hadoop框架　　　

（１）mapreduce 分布式批处理方式　--java编写程序任务，在hadoop以任务方式执行　　

（２）hadoop distributed file system----hdfs分布式存储（一般存的是不可变的数据）

（３）common

--hive hql--数据处理（比较与sql） hive engine->>mapreduce task

--hbase --数据存储　基于列的数据库，存放的是实时可变的数据

3.数据存储的地方有mysql,hdfs,hbase 可以通过工具sqoop进行数据间的转化--数据导入导出工具

4.hadoop是什么？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Hadoop主要组件包含：

Hadoop：Java编写的软件框架，以支持数据密集型分布式应用

ZooKeeper：高可靠性分布式协调系统

MapReduce：针对大数据的灵活的并行数据处理框架

HDFS：Hadoop分布式文件系统

Oozie：负责MapReduce作业调度

HBase：Key-value数据库

Hive：构建在MapRudece之上的数据仓库软件包

Pig：Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法。

posted @ 2017-07-18 20:48 学习记录_Lxb 阅读(176) 评论(0) 收藏举报

刷新页面返回顶部

学习记录_Lxb

BigData 学习记录（二）

公告