咖啡猫

导航

2015年3月25日 #

Hadoop数据类型介绍

摘要: 我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装,那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比:一、 Hadoop数据类型介绍:(1)在hado... 阅读全文

posted @ 2015-03-25 23:43 咖啡猫1292 阅读(1654) 评论(0) 推荐(0) 编辑

浅析Hadoop文件格式

摘要: Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式,分析其特点、开销及使用场景。希望加... 阅读全文

posted @ 2015-03-25 23:40 咖啡猫1292 阅读(547) 评论(0) 推荐(0) 编辑

Hadoop中Combiner的使用

摘要: 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。下面以《Hadoop in action》中的专利... 阅读全文

posted @ 2015-03-25 23:28 咖啡猫1292 阅读(266) 评论(0) 推荐(0) 编辑

Pig与Hive的区别

摘要: Language在Hive中可以执行插入/删除 等操作,但是Pig中我没有发现有可以 插入 数据的方法,请允许我暂且认为这是最大的不同点吧。SchemasHive中至少还有一个“表”的概念,但是Pig中我认为是基本没有表的概念,所谓的表建立在Pig Latin脚本中,对与Pig更不要提metadat... 阅读全文

posted @ 2015-03-25 23:16 咖啡猫1292 阅读(383) 评论(0) 推荐(0) 编辑

HiveQL(HiveSQL)跟普通SQL最大区别一直使用PIG,而今也需要兼顾HIVE

摘要: HiveQL(Hive SQL)跟普通SQL最大区别 一直使用PIG,而今也需要兼顾HIVE。网上搜了点资料,感觉挺有用,这里翻译过来。翻译估计不太准确,待自己熟悉HIVE后再慢慢总结。 * No true date/time data types, no interval types, and... 阅读全文

posted @ 2015-03-25 23:14 咖啡猫1292 阅读(697) 评论(0) 推荐(0) 编辑

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

摘要: 初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(210) 评论(0) 推荐(0) 编辑

pig hive 区别

摘要: Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(224) 评论(0) 推荐(0) 编辑