风-fmgao

导航

上一页 1 2 3 4 5 6 7 8 9 10 ··· 45 下一页

2019年2月22日

Flume架构

摘要: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统: Flume 介绍 Flume是由cloudera软件公司产出的高可用、高可靠、分布式的海量日志收集系统、聚合和传输的系统、于2009年被捐赠了apache软件基金会,为Hadoop相关组件之一。Flu 阅读全文

posted @ 2019-02-22 13:58 风-fmgao 阅读(524) 评论(0) 推荐(0) 编辑

Hive

摘要: Hive的基本概念: Hive 简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门 阅读全文

posted @ 2019-02-22 13:52 风-fmgao 阅读(295) 评论(0) 推荐(0) 编辑

Hadoop简介与分布式安装

摘要: Hadoop的基本概念和分布式安装: Hadoop 简介 Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hadoop起源于开源网络搜索引擎Apache Nutch,后者是Lucene项目的一部分. Apache 阅读全文

posted @ 2019-02-22 13:33 风-fmgao 阅读(219) 评论(0) 推荐(0) 编辑

Hadoop分布式文件系统HDFS

摘要: HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数据访问模式的分布式文件系统,支持海量数据的存储,允许用户将百千台组成存储集群,HDFS运行在低成本的 阅读全文

posted @ 2019-02-22 11:29 风-fmgao 阅读(987) 评论(0) 推荐(0) 编辑

HDFS的操作SHELL和API

摘要: HDFS的shell操作和JavaAPI的使用: WEB WEB端口50090查看SecondaryNameNode信息。可以查看Hadoop的版本,NameNode的IP,Checkpoint等信息。 WEB端口50070可以查看HDFS的信息和目录结构 SHELL 查看 创建文件夹 新建文件 查 阅读全文

posted @ 2019-02-22 11:24 风-fmgao 阅读(476) 评论(0) 推荐(0) 编辑

HDFS高级功能

摘要: HDFS的六大高级特性: 安全模式 安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,让NameNode得到 阅读全文

posted @ 2019-02-22 11:16 风-fmgao 阅读(772) 评论(0) 推荐(0) 编辑

Hadoop的I/O操作

摘要: Hadoop的IO: Hadoop自带的一条原子操作作用域数据I/O操作,其中有一些技术比Hadoop更常用,如数据完整性保持和压缩在处理好几个TB级别的数据集时值得关注. 数据完整性 Hadoop用户不希望在存储和处理数据时丢失或损坏任何数据,但是当系统中需要处理数据量达到Hadoop处理极限时, 阅读全文

posted @ 2019-02-22 11:02 风-fmgao 阅读(600) 评论(0) 推荐(0) 编辑

Hadoop的RPC工作原理

摘要: RPC远程过程调用: Hadoop的远程过程调用(Remote Procedure Call,RPC)是Hadoop中核心通信机制,RPC主要通过所有Hadoop的组件元数据交换,如MapReduce、Hadoop分布式文件系统(HDFS)和Hadoop的数据库(Hbase)。RPC是一种通过网络从 阅读全文

posted @ 2019-02-22 10:56 风-fmgao 阅读(1223) 评论(0) 推荐(0) 编辑

Mapreduce入门和优化方案

摘要: MapReduce基本原理和高性能网络下优化: Mapreduce概述 Mapreduce式谷歌开源的一项重要技术,是一个编程模型,用来进行大数据量的计算,对于大数据量的计算通常采用的处理方式式并行计算,对于许多开发者来说,自己完全实现一个并行计算程序难度太大.而MapReduce就是一种简化并行计 阅读全文

posted @ 2019-02-22 10:39 风-fmgao 阅读(1822) 评论(0) 推荐(0) 编辑

MapReduce的工作机制

摘要: 《Hadoop权威指南》中的MapReduce工作机制和Shuffle: 框架 Hadoop2.x引入了一种新的执行机制MapRedcue 2。这种新的机制建议在Yarn的系统上,目前用于执行的框架可以通过mapreduce.framework.name属性进行设置,值“local“表示本地作业运行 阅读全文

posted @ 2019-02-22 10:38 风-fmgao 阅读(570) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 10 ··· 45 下一页