摘要:
今天开始研究了下C#开发安卓,刚开始什么都不懂,学过安卓的同学们也是用Java开发的,虽然两者开发差别不大,但是还是有差别的 // Set our view from the "main" layout resource SetContentView(Resource.Layout.Main);// 阅读全文
摘要:
1. Hue是什么 HUE=Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。 阅读全文
摘要:
当我们要做一个主题分析时,基本上都会有这样一个流程,采集数据,数据预处理,数据入库,数据分析等一系列的操作。但是这些操作往往我们需要布置做一遍,有时候甚至需要定时定点的去做,比如数据采集。当我们每天都需要做一系列的重复的工作时,我们肯定首先就是想到,能不能我只做一遍,剩下的交给一个机器人自动帮我完成 阅读全文
摘要:
Apache Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channe 阅读全文
摘要:
Apache Sqoop,是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Ha 阅读全文
摘要:
Impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。 impala是基于hive并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优 阅读全文
摘要:
首先我们要明确一点,高可用的Hadoop环境之所以被称之为高可用,就是因为它所具备的容灾性更强,对分布式计算的能力更出众,来达到一种高可用的状态,那么就必然会有多个NameNode,ResourceManager的出现。那么我们的高可用的Hadoop环境资源分配如下图: 搭建集群 第一步:我们依然是 阅读全文
摘要:
数仓英文名叫做Data Warehouse,简称DW。数据仓库的目的是为了构建面向分析的集成化数据环境,为了企业提供决策支持。 数据仓库是存放数据的,企业的各种数据都往数仓中存,主要目的就是为了分析数据,后续基于这些数据产生可供分析挖掘的数据,或者企业所需要的数据。比如企业每年的年度各维度分析报表等 阅读全文
摘要:
Yarn作为Hadoop集群中作为资源调度的角色可谓是意义重大。当然其实Yarn本身在搭建完成之后呢不太需要你去关注它什么,就像一个幕后工作者默默的工作不抛头露面。但是我们还是需要知道它的一些运行机制。我们就拿提交一个MapReduce来举例子。 我们知道yarn集群分为两大角色,ResourceM 阅读全文
摘要:
MapReduce分布式计算系统,搭配yarn集群配合实现大数据计算任务。我们这里不讲MapReduce的代码具体实现,而是讲MapReduce的运行机制以及它的一些核心思想。了解了这些其实代码都很简单,只要有一些编程基础的人都会写得出那些代码。无非就是一堆文件的内容进行分解整合变换的过程代码。 M 阅读全文