BigData 学习记录(二)

1.hadoop.apache.org  //hadoop官网

 

2.hadoop框架   

(1)mapreduce 分布式批处理方式 --java编写程序任务,在hadoop以任务方式执行  

             (2)hadoop distributed file system----hdfs分布式存储(一般存的是不可变的数据)

            (3)common

           --hive hql--数据处理(比较与sql) hive engine->>mapreduce task

           --hbase --数据存储 基于列的数据库,存放的是实时可变的数据

  3.数据存储的地方有mysql,hdfs,hbase  可以通过工具sqoop进行数据间的转化--数据导入导出工具

 

  4.hadoop是什么?

       Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop主要组件包含:

Hadoop:Java编写的软件框架,以支持数据密集型分布式应用

ZooKeeper:高可靠性分布式协调系统

MapReduce:针对大数据的灵活的并行数据处理框架

HDFS:Hadoop分布式文件系统

Oozie:负责MapReduce作业调度

HBase:Key-value数据库

Hive:构建在MapRudece之上的数据仓库软件包

Pig:Pig是架构在Hadoop之上的高级数据处理层。Pig Latin语言为编程人员提供了更直观的定制数据流的方法。

 

posted @ 2017-07-18 20:48  学习记录_Lxb  阅读(145)  评论(0编辑  收藏  举报