摘要:
order by1、order by会对输入按照指定字段做全局排序,输出结果有序,因此只有一个reducer(多个reducer无法保证全局排序,手工设定reduce数量无效); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;在数据量大的情况下慎用order by... 阅读全文
2014年8月13日 #
摘要:
本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [... 阅读全文
2014年8月11日 #
摘要:
Build/Rebuild Project之后 阅读全文
2014年8月9日 #
摘要:
Hive架构1)用户接口: CLI(hive shell):命令行工具;启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端口是10000;启动方式:hive --service hiveserver WEBUI(浏览器... 阅读全文
摘要:
Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库、单Session的(只支持单客户端连接,两个客户端连接过去会报错);Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle;本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用... 阅读全文
摘要:
Hive是什么1)Hive由facebook开源,构建在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)... 阅读全文
2014年8月7日 #
摘要:
测试数据位于:/home/hadoop/luogankun/workspace/sync_data/pigdept和emp表来源自oracle数据库自带的表dept.txt10 ACCOUNTING NEW YORK20 RESEARCH DALLAS30... 阅读全文
摘要:
测试数据位于:/home/hadoop/luogankun/workspace/sync_data/pigperson.txt中的数据以逗号分隔1,zhangsan,1122,lisi,1133,wangwu,1144,zhaoliu,115score.txt中的数据以制表符分隔1 20... 阅读全文
摘要:
pig概述pig是一个用于并行计算的高级数据流语言和执行框架;类sql、文件处理框架;有一套和sql类似的执行语句,处理的对象是HDFS上文件。Pig的数据处理语言是数据流方式的,一步一步的进行处理;Pig基本数据类型:int、long、float、double、chararry、bytearray... 阅读全文
2014年8月6日 #
摘要:
Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。将数据从ORACLE中抽取数据,经过hive进行分析转换,最后存放到ORACLE中去。本案例是纯demo级别,练手使用一、需求将emp和dept表的数据分析最后存放到result表。emp和de... 阅读全文