瞌睡中的葡萄虎

Hive基础之排序

摘要： order by1、order by会对输入按照指定字段做全局排序，输出结果有序，因此只有一个reducer（多个reducer无法保证全局排序，手工设定reduce数量无效）；只有一个reducer会导致当输入规模较大时，需要较长的计算时间，速度很非常慢；在数据量大的情况下慎用order by... 阅读全文

posted @ 2014-08-13 18:11 瞌睡中的葡萄虎阅读(2242) 评论(0) 推荐(0) 编辑

Hive基础之Hive表常用操作

摘要：本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [... 阅读全文

posted @ 2014-08-13 16:17 瞌睡中的葡萄虎阅读(1042) 评论(0) 推荐(0) 编辑

IDEA编译Flume Sink通不过解决方法

摘要： Build/Rebuild Project之后阅读全文

posted @ 2014-08-11 17:01 瞌睡中的葡萄虎阅读(850) 评论(0) 推荐(0) 编辑

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别

摘要： Hive架构1）用户接口： CLI(hive shell)：命令行工具；启动方式：hive 或者 hive --service cli ThriftServer：通过Thrift对外提供服务，默认端口是10000；启动方式：hive --service hiveserver WEBUI(浏览器... 阅读全文

posted @ 2014-08-09 22:59 瞌睡中的葡萄虎阅读(1418) 评论(0) 推荐(0) 编辑

Hive基础之Hive环境搭建

摘要： Hive默认元数据信息存储在Derby里，Derby内置的关系型数据库、单Session的（只支持单客户端连接，两个客户端连接过去会报错）；Hive支持将元数据存储在关系型数据库中，比如：Mysql/Oracle；本案例采用的是将hive的元数据存储在MySQL中，故需要先安装MySQL数据库，使用... 阅读全文

posted @ 2014-08-09 22:38 瞌睡中的葡萄虎阅读(947) 评论(0) 推荐(0) 编辑

Hive基础之Hive是什么以及使用场景

摘要： Hive是什么1）Hive由facebook开源，构建在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；2）一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制；3）Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据；4）... 阅读全文

posted @ 2014-08-09 22:08 瞌睡中的葡萄虎阅读(1356) 评论(0) 推荐(0) 编辑

pig和mysql脚本对比

摘要：测试数据位于：/home/hadoop/luogankun/workspace/sync_data/pigdept和emp表来源自oracle数据库自带的表dept.txt10 ACCOUNTING NEW YORK20 RESEARCH DALLAS30... 阅读全文

posted @ 2014-08-07 14:55 瞌睡中的葡萄虎阅读(438) 评论(0) 推荐(0) 编辑

pig入门案例

摘要：测试数据位于：/home/hadoop/luogankun/workspace/sync_data/pigperson.txt中的数据以逗号分隔1,zhangsan,1122,lisi,1133,wangwu,1144,zhaoliu,115score.txt中的数据以制表符分隔1 20... 阅读全文

posted @ 2014-08-07 14:41 瞌睡中的葡萄虎阅读(519) 评论(0) 推荐(0) 编辑

pig概述

摘要： pig概述pig是一个用于并行计算的高级数据流语言和执行框架；类sql、文件处理框架；有一套和sql类似的执行语句，处理的对象是HDFS上文件。Pig的数据处理语言是数据流方式的，一步一步的进行处理；Pig基本数据类型：int、long、float、double、chararry、bytearray... 阅读全文

posted @ 2014-08-07 14:30 瞌睡中的葡萄虎阅读(693) 评论(0) 推荐(0) 编辑

sqoop操作之ETL小案例

摘要： Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载。将数据从ORACLE中抽取数据，经过hive进行分析转换，最后存放到ORACLE中去。本案例是纯demo级别，练手使用一、需求将emp和dept表的数据分析最后存放到result表。emp和de... 阅读全文

posted @ 2014-08-06 18:01 瞌睡中的葡萄虎阅读(2735) 评论(0) 推荐(0) 编辑

瞌睡中的葡萄虎

公告