摘要: 声明:本文摘录自《大数据日知录——架构与算法》一书。较常见的计算模式有4类,实际应用中大部分ETL任务都可以归结为这些计算模式或者变体。1.求和模式 a.数值求和 比如我们熟悉的单词计数,即使该模式的一个应用。求最大最小值,求平均值皆属此类。 b.记录求和 非数值内容的累加,形成队列。比如将... 阅读全文
posted @ 2015-10-17 20:32 夏末的秋千 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 源自单点失效问题,也就是当NameNode不可用的时候,用什么办法可以平滑过渡?最直接的办法是再添加一个备用的NN,这就产生了Active NameNode和Standby NameNode的设计思路。接下来的一个问题是,如何让Standby Namenode的文件系统命名空间元数据与Active ... 阅读全文
posted @ 2015-10-17 14:29 夏末的秋千 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 仿照《hadoop技术内幕:深入解析MapReduce架构设计与实现原理》中的原图,我用手绘制了一份类似的图-_-4大部分:HDFS,Client,JobTracker,TaskTrackerYARN的思想在于,将资源调度和作业控制分开,从而降低单个节点(JobTracker的负担)。Applica... 阅读全文
posted @ 2015-10-17 14:05 夏末的秋千 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 典型代码如下:导入UDF类:import org.apache.hadoop.hive.ql.exec.UDF;public class UpperCassUDF extends UDF{ public String evaluate(String input){ if(input==nul... 阅读全文
posted @ 2015-10-17 13:03 夏末的秋千 阅读(3625) 评论(0) 推荐(0) 编辑
摘要: 以后编程基于这个样例可节省查阅API的时间。private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";try{ Class.forName(driverName);//取得数据驱动,应用不同的数据驱动可以... 阅读全文
posted @ 2015-10-17 12:50 夏末的秋千 阅读(767) 评论(0) 推荐(0) 编辑
摘要: 本文写作目的是整理出一份带注释的cheatsheet。内容组织形式为查询语句,实例,原理浅析。基本查询语句show databases;create database retail;use retail;create table id (val type)row format delimitedfi... 阅读全文
posted @ 2015-10-17 12:15 夏末的秋千 阅读(295) 评论(0) 推荐(0) 编辑