12 2016 档案
摘要:行转列 多行转多列 数据表 row2col col1 col2 col3 a c 1 a d 2 a e 3 b c 4 b d 5 b e 6 现在要将其转化为: col1 c d e a 1 2 3 b 4 5 6 此时需要使用到max(case … when … then … else 0 e
阅读全文
摘要:hive中的lateral view 与 explode函数的使用 背景介绍: explode与lateral view在关系型数据库中本身是不该出现的。 因为他的出现本身就是在操作不满足第一范式的数据(每个属性都不可再分)。本身已经违背了数据库的设计原理(不论是业务系统还是数据仓库系统),在面向分
阅读全文
摘要:hadoop的基准测试 实际生产环境当中,hadoop的环境搭建完成之后,第一件事情就是进行压力测试,测试我们的集群的读取和写入速度,测试我们的网络带宽是否足够等一些基准测试 测试写入速度 向HDFS文件系统中写入数据,10个文件,每个文件10MB,文件存放到 完成之后查看写入速度结果 测试读取速度
阅读全文
摘要:hive中的复合数据类型 Array array中的数据为相同类型,例如,假如array A中元素['a','b','c'],则A[1]的值为'b' Map 可以通过["指定key名称"]访问 Struct 集合元素可以类型不一样 例如c的类型为STRUCT{a INT; b INT},我们可以通过
阅读全文
摘要:Hive常见文件存储格式 背景:列式存储和行式存储 首先来看一下一张表的存储格式: 字段A字段B字段C A1 B1 C1 A2 B2 C2 A3 B3 C3 A4 B4 C4 A5 B5 C5 背景:列式存储和行式存储 首先来看一下一张表的存储格式: 行式存储 A1B1C1 A2B2C2 A3B3C
阅读全文
摘要:CDH5.14.0版本说明 CDH最早版本只包含hadoop、hive、hbase等基础组件,CDH5.14.0版本目前已经封装了spark、impala、kudu(CDH 5.13.x开始)等众多组件,但是目前kafka和CDH还是分离的,如果需要cdh离线安装kafka,需要单独下载kafka的
阅读全文