笑城戈 - 博客园

[置顶] C#开发安卓自学笔记1

摘要：今天开始研究了下C#开发安卓，刚开始什么都不懂，学过安卓的同学们也是用Java开发的，虽然两者开发差别不大，但是还是有差别的 // Set our view from the "main" layout resource SetContentView(Resource.Layout.Main);// 阅读全文

posted @ 2014-04-04 17:33 笑城戈阅读(1027) 评论(4) 推荐(1)

2014年5月8日

大数据之Hue的搭建与相关配置

摘要： 1． Hue是什么 HUE=Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。阅读全文

posted @ 2014-05-08 22:18 笑城戈阅读(965) 评论(0) 推荐(0)

2014年4月1日

大数据之azkaban与oozie

摘要：当我们要做一个主题分析时，基本上都会有这样一个流程，采集数据，数据预处理，数据入库，数据分析等一系列的操作。但是这些操作往往我们需要布置做一遍，有时候甚至需要定时定点的去做，比如数据采集。当我们每天都需要做一系列的重复的工作时，我们肯定首先就是想到，能不能我只做一遍，剩下的交给一个机器人自动帮我完成阅读全文

posted @ 2014-04-01 18:04 笑城戈阅读(551) 评论(0) 推荐(0)

2014年3月8日

大数据之Apache Flume

摘要： Apache Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channe 阅读全文

posted @ 2014-03-08 22:50 笑城戈阅读(359) 评论(0) 推荐(0)

2014年2月28日

大数据之Apache Sqoop

摘要： Apache Sqoop，是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Ha 阅读全文

posted @ 2014-02-28 23:08 笑城戈阅读(411) 评论(0) 推荐(0)

2014年1月30日

大数据之Impala

摘要： Impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具。 impala是基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优阅读全文

posted @ 2014-01-30 17:28 笑城戈阅读(422) 评论(0) 推荐(0)

2014年1月25日

大数据之高可用Hadoop集群环境搭建

摘要：首先我们要明确一点，高可用的Hadoop环境之所以被称之为高可用，就是因为它所具备的容灾性更强，对分布式计算的能力更出众，来达到一种高可用的状态，那么就必然会有多个NameNode，ResourceManager的出现。那么我们的高可用的Hadoop环境资源分配如下图：搭建集群第一步：我们依然是阅读全文

posted @ 2014-01-25 13:41 笑城戈阅读(308) 评论(0) 推荐(0)

2014年1月20日

大数据之数仓Hive

摘要：数仓英文名叫做Data Warehouse，简称DW。数据仓库的目的是为了构建面向分析的集成化数据环境，为了企业提供决策支持。数据仓库是存放数据的，企业的各种数据都往数仓中存，主要目的就是为了分析数据，后续基于这些数据产生可供分析挖掘的数据，或者企业所需要的数据。比如企业每年的年度各维度分析报表等阅读全文

posted @ 2014-01-20 00:11 笑城戈阅读(888) 评论(0) 推荐(0)

2014年1月16日

大数据之Yarn集群运行机制

摘要： Yarn作为Hadoop集群中作为资源调度的角色可谓是意义重大。当然其实Yarn本身在搭建完成之后呢不太需要你去关注它什么，就像一个幕后工作者默默的工作不抛头露面。但是我们还是需要知道它的一些运行机制。我们就拿提交一个MapReduce来举例子。我们知道yarn集群分为两大角色，ResourceM 阅读全文

posted @ 2014-01-16 17:13 笑城戈阅读(326) 评论(0) 推荐(1)

大数据之MapReduce工作机制

摘要： MapReduce分布式计算系统，搭配yarn集群配合实现大数据计算任务。我们这里不讲MapReduce的代码具体实现，而是讲MapReduce的运行机制以及它的一些核心思想。了解了这些其实代码都很简单，只要有一些编程基础的人都会写得出那些代码。无非就是一堆文件的内容进行分解整合变换的过程代码。 M 阅读全文

posted @ 2014-01-16 16:19 笑城戈阅读(166) 评论(0) 推荐(1)

笑辰戈

公告