摘要:
checkpoint :执行checkpoint操作使得offset保存在checkpoint中,系统挂掉重启没问题,但是系统升级,checkpoint数据就无法使用 将offset保存到hbase 将offset保存到zookeeper 将offset保存到kafka本身 详细网址 https:/ 阅读全文
摘要:
1)聚合原数据(主要操作的是hive数据库中的数据,先通过hive sql将相同key的数据聚合成一条数据,再进行map操作) 当没办法聚合成一条数据时:增大key粒度,从而key的数量会减少,但是每个key对应的数据量会增大,key之间的数据量差异可能会减少。 2)过滤导致倾斜的key 3)提高s 阅读全文
摘要:
变量一旦被定义成广播变量,那么这个变量只能读,不能被修改 RDD是不能被广播出去的,因为RDD是不存储数据的,可以将rdd的结果广播出去 广播变量只能在driver端定义,不能在executor端定义 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。 如果execut 阅读全文
摘要:
1】spark常规性能调优 (1)提交作业参数合理的设置 (2)rdd尽可能的复用 (3)rdd持久化 (4)并行度调节 (5)广播变量 (6)kryo序列化 (7)调节本地化等待时长(数据本地化思想)spark.locality.wait https://blog.csdn.net/zhouyan 阅读全文
摘要:
flume1.7一直都是自己修改源代码实现断点续传,1.7之后出现taildir source实现断点续传。 https://blog.csdn.net/Abysscarry/article/details/89420560 小文件过多的解决方案: https://blog.csdn.net/qq_ 阅读全文
摘要:
问题(1) Sqoop导入导出Null存储一致性问题 Hive中的Null在底层是以“”\N“”来存储,而mysql中的Null在底层就是Null,为了保证数据两端的一致性,在导出数据时采用--input-null-string和--input-null-non-string两个参数。导入时采用-- 阅读全文
摘要:
原表:id fenlei time1 分类1 201303162 分类2 201303163 分类3 201303174 分类2 201303175 分类3 20130318需要查上表,得到结果插入新表新表结构:id fenlei_1 fenlei_2 fenlei_3 date1 1 1 0 20 阅读全文
摘要:
GMV是成交总额(一定时间段内)的意思。多用于电商行业,一般包含拍下未支付订单金额。 阅读全文
摘要:
范式的含义: 可以理解为,数据表的表结构所符合的某种设计标准的级别。 第一范式,是对关系模型的基本要求,不满足第一范式的关系,不能称之为关系型数据库。符合第一范式的关系,每个属性都不可以再分割。(属性不可分割) 第二范式,首先满足第一范式,确保表中的每列都和主键相关(也就是说在一个数据库表中,一个表 阅读全文
摘要:
1)map join(默认是开启的) MapJoin是hive的一种优化操作,其适用于小表join大表的场景,由于表的操作是在Map端且在内存进行的,所以其不需要启动reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高Join效率。 2)分区,分桶 3)合理设置map个数 阅读全文