摘要: checkpoint :执行checkpoint操作使得offset保存在checkpoint中,系统挂掉重启没问题,但是系统升级,checkpoint数据就无法使用 将offset保存到hbase 将offset保存到zookeeper 将offset保存到kafka本身 详细网址 https:/ 阅读全文
posted @ 2020-04-17 11:31 hulifang 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 1)聚合原数据(主要操作的是hive数据库中的数据,先通过hive sql将相同key的数据聚合成一条数据,再进行map操作) 当没办法聚合成一条数据时:增大key粒度,从而key的数量会减少,但是每个key对应的数据量会增大,key之间的数据量差异可能会减少。 2)过滤导致倾斜的key 3)提高s 阅读全文
posted @ 2020-04-16 16:25 hulifang 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 变量一旦被定义成广播变量,那么这个变量只能读,不能被修改 RDD是不能被广播出去的,因为RDD是不存储数据的,可以将rdd的结果广播出去 广播变量只能在driver端定义,不能在executor端定义 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。 如果execut 阅读全文
posted @ 2020-04-16 15:40 hulifang 阅读(744) 评论(0) 推荐(0) 编辑
摘要: 1】spark常规性能调优 (1)提交作业参数合理的设置 (2)rdd尽可能的复用 (3)rdd持久化 (4)并行度调节 (5)广播变量 (6)kryo序列化 (7)调节本地化等待时长(数据本地化思想)spark.locality.wait https://blog.csdn.net/zhouyan 阅读全文
posted @ 2020-04-16 15:05 hulifang 阅读(194) 评论(0) 推荐(0) 编辑
摘要: flume1.7一直都是自己修改源代码实现断点续传,1.7之后出现taildir source实现断点续传。 https://blog.csdn.net/Abysscarry/article/details/89420560 小文件过多的解决方案: https://blog.csdn.net/qq_ 阅读全文
posted @ 2020-04-02 15:50 hulifang 阅读(1162) 评论(0) 推荐(0) 编辑
摘要: 问题(1) Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“”\N“”来存储,而mysql中的Null在底层就是Null,为了保证数据两端的一致性,在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入时采用-- 阅读全文
posted @ 2020-03-31 11:31 hulifang 阅读(2205) 评论(0) 推荐(0) 编辑
摘要: 原表:id fenlei time1 分类1 201303162 分类2 201303163 分类3 201303174 分类2 201303175 分类3 20130318需要查上表,得到结果插入新表新表结构:id fenlei_1 fenlei_2 fenlei_3 date1 1 1 0 20 阅读全文
posted @ 2020-03-27 11:05 hulifang 阅读(2669) 评论(0) 推荐(0) 编辑
摘要: GMV是成交总额(一定时间段内)的意思。多用于电商行业,一般包含拍下未支付订单金额。 阅读全文
posted @ 2020-03-26 17:06 hulifang 阅读(811) 评论(0) 推荐(0) 编辑
摘要: 范式的含义: 可以理解为,数据表的表结构所符合的某种设计标准的级别。 第一范式,是对关系模型的基本要求,不满足第一范式的关系,不能称之为关系型数据库。符合第一范式的关系,每个属性都不可以再分割。(属性不可分割) 第二范式,首先满足第一范式,确保表中的每列都和主键相关(也就是说在一个数据库表中,一个表 阅读全文
posted @ 2020-03-25 16:12 hulifang 阅读(4523) 评论(0) 推荐(0) 编辑
摘要: 1)map join(默认是开启的) MapJoin是hive的一种优化操作,其适用于小表join大表的场景,由于表的操作是在Map端且在内存进行的,所以其不需要启动reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高Join效率。 2)分区,分桶 3)合理设置map个数 阅读全文
posted @ 2020-03-25 14:18 hulifang 阅读(175) 评论(0) 推荐(0) 编辑