大数据 - 随笔分类 - 星空str

HDFS运行原理

摘要：HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（ "中文" ， "英文" ）。 HDFS有很多特点：运行在廉价的机器上。保存多个副阅读全文

posted @ 2017-05-03 18:03 星空str 阅读(255) 评论(0) 推荐(0)

MapReduce详解

摘要：MapReduce简介 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想。 MapReduce极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。 WordCount单词计数阅读全文

posted @ 2017-03-04 15:24 星空str 阅读(1354) 评论(0) 推荐(0)

Flume简介及安装

摘要：Hadoop业务的大致开发流程以及Flume在业务中的地位：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步，从而引出我们本文的主角—Flume。 Flume概念 flume是分布式的日志收集系统，它将各个服务器中的数据收集起来阅读全文

posted @ 2017-03-04 15:23 星空str 阅读(138) 评论(0) 推荐(0)

HIVE安装配置

摘要：Hive简介 Hive 基本介绍 Hive 实现机制 Hive 数据模型 Hive 如何转换成MapReduce Hive 与其他数据库的区别以上详见：https://chu888chu888.gitbooks.io/hadoopstudy/content/Content/8/chapter8.h 阅读全文

posted @ 2017-03-04 15:23 星空str 阅读(1802) 评论(0) 推荐(0)

Sqoop简介及安装

摘要：Hadoop业务的大致开发流程以及Sqoop在业务中的地位： Sqoop概念 Sqoop可以理解为【SQL–to–Hadoop】，正如名字所示，Sqoop是一个用来将关系型数据库和Hadoop中的数据进行相互转移的工具。它可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoo 阅读全文

posted @ 2017-03-04 15:22 星空str 阅读(1036) 评论(0) 推荐(0)

hadoop2.7.2单机与伪分布式安装

摘要：环境相关系统：CentOS 6.8 64位 jdk：1.7.0_79 hadoop：hadoop 2.7.2 安装java环境详见： "linux中搭建java开发环境" 创建hadoop用户 <! more 可为hadoop用户增加管理员权限，避免一些对新手来说比较棘手的权限问题。保存退出后阅读全文

posted @ 2017-03-04 15:21 星空str 阅读(4996) 评论(0) 推荐(0)

Zookeeper原理

摘要：Zookeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和leader的状态阅读全文

posted @ 2017-02-14 15:06 星空str 阅读(488) 评论(0) 推荐(0)

Zookeeper简介

摘要：什么是Zookeeper？ ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。Zookeeper是hadoop的一个子项目，其发展历程无需赘述。在分布式应用中，由于工程师不能很好地使用锁机制，以及基阅读全文

posted @ 2017-02-14 15:04 星空str 阅读(485) 评论(0) 推荐(0)

星空博客

Thoughts, Stories and Ideas.

随笔分类 - 大数据

公告