摘要: 基本函数测试表:一、字符串函数charset(str):返回字符串的字符集concat(str1,[…]):连接字符串instr(string,substring):返回substring首次在string中出现的位置,若不存在则返回0ucase(str1):字符串转换成大写lcase(str1):字符串转换成小写right(string,length):从右边起取string的length个字符... 阅读全文
posted @ 2020-01-28 09:47 郭小白 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 业务场景:需求:通过flume进行数据采集,将本地(windows服务器)不断产生的csv文件采集到hdfs上。问题:本地文件在生成的过程中,会出现文件名重复的现象。也就是说,在前一秒生成文件名为aaa.csv,该文件经过flume进行处理之后会进行文件名的更改,默认情况下文件名会更改为aaa.csv.COMPLATED,但是在第二秒的时候,接着又生成了aaa.csv文件,此时flume将该文件处... 阅读全文
posted @ 2020-01-23 00:25 郭小白 阅读(1044) 评论(0) 推荐(0) 编辑
摘要: spark任务提交之后作业运行状态在spark向yarn提交作业之后,正常情况下,作业运行结束之前,状态分为两种,分别是:accept以及running一、accept 该状态表示Application已经提交给调度器。 在NEW_SAVEING转换为SUBMITTED状态的时候,RMAppImpl会除法StartAppAttemptTransition,这是会创建一个新的RMAppA... 阅读全文
posted @ 2020-01-19 22:33 郭小白 阅读(1285) 评论(0) 推荐(1) 编辑
摘要: HBase行健的设计 在设计HBase表的时候,行健是唯一重要的事情。应该基于预期的访问模式来为行健进行建模 行健决定了访问HBase表时可以得到的性能。这个结论根植于两个事实: 1、region基于行健为一个区间的行提供服务,并且负责区间内的每一行。 2、HFile在硬盘上存储有序的行。 当reg 阅读全文
posted @ 2020-01-15 23:02 郭小白 阅读(801) 评论(0) 推荐(0) 编辑
摘要: HBase表模式的设计 对于HBase表,在设计表结构之前,我们需要先考虑的几个问题: 这个表应该有多少个列族? 列族使用的是什么数据? 每个列族应该有多少列? 列名应该是什么?尽管列名不必在建表的时候定义,但是后期读写数据时是需要知道的。 单元存放什么数据? 每个单元存储多少个时间版本? 行健结构 阅读全文
posted @ 2020-01-11 16:13 郭小白 阅读(1768) 评论(0) 推荐(0) 编辑
摘要: 业务场景 有如下数据: id intime outtime1190771865,2019-11-26 13:27:26,2019-11-26 13:27:26 1190771865,2019-11-26 13:27:26,2019-11-26 13:27:26 1190771865,2019-11- 阅读全文
posted @ 2019-12-21 12:38 郭小白 阅读(359) 评论(0) 推荐(0) 编辑
摘要: Aggregate函数 一、源码定义 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文
posted @ 2019-08-31 01:17 郭小白 阅读(2063) 评论(4) 推荐(0) 编辑
摘要: 报错信息: 报错截图: 解决方案: 因为本人是sbt项目,所以添加一下依赖之后解决: 如果是maven项目的话,添加依赖到pom文件中然后在重新build,之后就可以了 阅读全文
posted @ 2019-08-27 00:35 郭小白 阅读(884) 评论(0) 推荐(0) 编辑
摘要: Hive sql是Hive 用户使用Hive的主要工具。Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同。Hive SQL和Mysql的SQL方言最为接近,但是两者之间也存在着显著的差异,比如Hive不支持行级数据的插入、更新和删除,也不支持事务操作。 注: HIVE 阅读全文
posted @ 2019-08-18 11:57 郭小白 阅读(8941) 评论(0) 推荐(1) 编辑
摘要: 什么是Hive hive是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作,而不是必须掌握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解 阅读全文
posted @ 2019-08-17 23:42 郭小白 阅读(4895) 评论(0) 推荐(2) 编辑