2015 年 3月 25 日随笔档案 - 咖啡猫1292

Hadoop数据类型介绍

摘要：我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装，那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比：一、 Hadoop数据类型介绍：(1)在hado... 阅读全文

posted @ 2015-03-25 23:43 咖啡猫1292 阅读(1654) 评论(0) 推荐(0) 编辑

浅析Hadoop文件格式

摘要： Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式，分析其特点、开销及使用场景。希望加... 阅读全文

posted @ 2015-03-25 23:40 咖啡猫1292 阅读(547) 评论(0) 推荐(0) 编辑

Hadoop中Combiner的使用

摘要：在MapReduce中，当map生成的数据过大时，带宽就成了瓶颈，怎样精简压缩传给Reduce的数据，有不影响最终的结果呢。有一种方法就是使用Combiner，Combiner号称本地的Reduce，Reduce最终的输入，是Combiner的输出。下面以《Hadoop in action》中的专利... 阅读全文

posted @ 2015-03-25 23:28 咖啡猫1292 阅读(266) 评论(0) 推荐(0) 编辑

Pig与Hive的区别

摘要： Language在Hive中可以执行插入/删除等操作，但是Pig中我没有发现有可以插入数据的方法，请允许我暂且认为这是最大的不同点吧。SchemasHive中至少还有一个“表”的概念，但是Pig中我认为是基本没有表的概念，所谓的表建立在Pig Latin脚本中，对与Pig更不要提metadat... 阅读全文

posted @ 2015-03-25 23:16 咖啡猫1292 阅读(383) 评论(0) 推荐(0) 编辑

HiveQL(HiveSQL)跟普通SQL最大区别一直使用PIG，而今也需要兼顾HIVE

摘要： HiveQL(Hive SQL)跟普通SQL最大区别一直使用PIG，而今也需要兼顾HIVE。网上搜了点资料，感觉挺有用，这里翻译过来。翻译估计不太准确，待自己熟悉HIVE后再慢慢总结。 * No true date/time data types, no interval types, and... 阅读全文

posted @ 2015-03-25 23:14 咖啡猫1292 阅读(697) 评论(0) 推荐(0) 编辑

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要：初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了，我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂，不要紧糊涂的不止你一个，如某个菜鸟的帖子的疑问，when to use Hbase and when to use Hive？....请教了^_^没关系这里我帮大... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(210) 评论(0) 推荐(0) 编辑

pig hive 区别

摘要： Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(224) 评论(0) 推荐(0) 编辑

导航