郭小白

2020年1月28日

摘要：基本函数测试表：一、字符串函数charset(str):返回字符串的字符集concat(str1,[…]):连接字符串instr(string,substring):返回substring首次在string中出现的位置，若不存在则返回0ucase(str1)：字符串转换成大写lcase(str1)：字符串转换成小写right(string,length):从右边起取string的length个字符... 阅读全文

posted @ 2020-01-28 09:47 郭小白阅读(718) 评论(0) 推荐(0) 编辑

2020年1月23日

flume修改源码实现source文件名前后缀的更改

摘要：业务场景：需求：通过flume进行数据采集，将本地(windows服务器)不断产生的csv文件采集到hdfs上。问题：本地文件在生成的过程中，会出现文件名重复的现象。也就是说，在前一秒生成文件名为aaa.csv,该文件经过flume进行处理之后会进行文件名的更改，默认情况下文件名会更改为aaa.csv.COMPLATED,但是在第二秒的时候，接着又生成了aaa.csv文件，此时flume将该文件处... 阅读全文

posted @ 2020-01-23 00:25 郭小白阅读(1044) 评论(0) 推荐(0) 编辑

2020年1月19日

关于spark任务提交状态的理解

摘要： spark任务提交之后作业运行状态在spark向yarn提交作业之后，正常情况下，作业运行结束之前，状态分为两种，分别是：accept以及running一、accept 该状态表示Application已经提交给调度器。在NEW_SAVEING转换为SUBMITTED状态的时候，RMAppImpl会除法StartAppAttemptTransition，这是会创建一个新的RMAppA... 阅读全文

posted @ 2020-01-19 22:33 郭小白阅读(1285) 评论(0) 推荐(1) 编辑

2020年1月15日

HBase表的设计（二）之行健的设计

摘要： HBase行健的设计在设计HBase表的时候，行健是唯一重要的事情。应该基于预期的访问模式来为行健进行建模行健决定了访问HBase表时可以得到的性能。这个结论根植于两个事实： 1、region基于行健为一个区间的行提供服务，并且负责区间内的每一行。 2、HFile在硬盘上存储有序的行。当reg 阅读全文

posted @ 2020-01-15 23:02 郭小白阅读(801) 评论(0) 推荐(0) 编辑

2020年1月11日

HBase表的设计（一）之表模式的设计

摘要： HBase表模式的设计对于HBase表，在设计表结构之前，我们需要先考虑的几个问题：这个表应该有多少个列族？列族使用的是什么数据？每个列族应该有多少列？列名应该是什么？尽管列名不必在建表的时候定义，但是后期读写数据时是需要知道的。单元存放什么数据？每个单元存储多少个时间版本？行健结构阅读全文

posted @ 2020-01-11 16:13 郭小白阅读(1768) 评论(0) 推荐(0) 编辑

2019年12月21日

记一次逻辑代码的实现(数组内数据按照指定时间差进行分组)

摘要：业务场景有如下数据： id intime outtime1190771865,2019-11-26 13:27:26,2019-11-26 13:27:26 1190771865,2019-11-26 13:27:26,2019-11-26 13:27:26 1190771865,2019-11- 阅读全文

posted @ 2019-12-21 12:38 郭小白阅读(359) 评论(0) 推荐(0) 编辑

2019年8月31日

spark算子之Aggregate

摘要： Aggregate函数一、源码定义 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文

posted @ 2019-08-31 01:17 郭小白阅读(2063) 评论(4) 推荐(0) 编辑

2019年8月27日

java.lang.SecurityException: class "javax.servlet.ServletRegistration"'s signer information does not match signer information of other classes in the same package

摘要：报错信息：报错截图：解决方案：因为本人是sbt项目，所以添加一下依赖之后解决：如果是maven项目的话，添加依赖到pom文件中然后在重新build，之后就可以了阅读全文

posted @ 2019-08-27 00:35 郭小白阅读(884) 评论(0) 推荐(0) 编辑

2019年8月18日

Hive SQL之分区表与分桶表

摘要： Hive sql是Hive 用户使用Hive的主要工具。Hive SQL是类似于ANSI SQL标准的SQL语言，但是两者有不完全相同。Hive SQL和Mysql的SQL方言最为接近，但是两者之间也存在着显著的差异，比如Hive不支持行级数据的插入、更新和删除，也不支持事务操作。注: HIVE 阅读全文

posted @ 2019-08-18 11:57 郭小白阅读(8941) 评论(0) 推荐(1) 编辑

2019年8月17日

hive之基本架构

摘要：什么是Hive hive是建立在Hadoop体系架构上的一层SQL抽象，使得数据相关人员是用他们最为熟悉的SQL语言就可以进行海量的数据的处理、分析和统计工作，而不是必须掌握JAVA等变成语言和具备开发MapReduce程序的能力。Hive SQL实际上是先被SQL解析器进行解析然后被Hive框架解阅读全文

posted @ 2019-08-17 23:42 郭小白阅读(4895) 评论(0) 推荐(2) 编辑

公告