分为几个部分: 开发调优、资源调优、数据倾斜调优、shuffle调优 开发调优: 主要包括这几个方面 RDD lineage设计、算子的合理使用、特殊操作的优化等 避免创建重复的RDD,尽可能复用同一个RDD 一个RDD包含另外一个RDD,对多次使用的RDD进行持久化 内存(序列化),磁盘(序列化) Read More
分布式计算 标准差,信度 当一组数据无法完全加载到内存计算时,那我们就需要进行分布式计算,每台机器计算部分数据然后合成最后结果。例如典型的词频统计案例,但是当最后的结果不能根据每台机器的结果得出,那么就要拆分算法了。 ==拆分算法的标准:算法公式的粒度一定要能根据分布式的各个task处理得出== 拆 Read More
先说说遇到的坑 回顾下kafka topic:生产组:P0\P1 P14 一个消费组:c0 c1 c2 依据Consumer的负载均衡分配 消费顺序“c0:p0 p4 c1:p5 p9 c2:p10 p14 问题:突然发现读offset 堆积太多 增加消费者也没用 原因: C2节点物理故障,会把数据 Read More
hive 处理json数据总体来说有两个方向的路走 1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。 2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解 Read More
官方指导:http://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html 1、版本问题 起初用的kafka是0.8,各种问题,后面换成官方要求的 0.10.0 以上,一些版本问题再没有了。 2、在windw Read More
pentaho 自带的component 虽多,但是当用户需要在一个表格中查看多个组别的数据时,pentaho自带的单选框就不能实现了,所以复选下拉框势在必行,实现效果如下: 实现原理是借用了jquery ztree 插件。 首先集成ztree 插件,如图 画你想要的图 书写数据源。。。 新建que Read More
.具体场景如下: spark1.6 升级 spark2.2 后 分析查询hbase 数据报异常: 后发现spark2.2 引入的包路径为 org.htrace htrace-core-3.0.4 版本的时候路径是 org.htrace 而3.1.0的时候已经贡献给Apache了,改叫org.apac Read More
问题一: 此问题一般和内存有关,调大内存 再把虚拟和物理监控线程关闭 问题二: 此问题一般是由于集群配置原因,检查jdk ,yarn 的配置文件 问题三: 同步集群的时间即可,本人集群其实一直都是时钟同步的,但是不知道为什么第三个节点会突然时钟错乱,jdk版本也错乱了 问题问题四: 这些问题看表面一 Read More
1、hiveserver2正常启动,但是beeline连不上服务。 我的服务是开在本机的,但是用主机名和127好像都不能访问服务了 把127或者主机名改成真实的IP就可以了 2、创建hive外部表关联hbase数据的时候报一些莫名其妙的错误 在hive env 文件里面加上hbase 的环境变量就好 Read More
更新了hive版本后,在创建hive外部表 级联hbase 的时候报如下异常: 起初以为少包:从新导入,确认无误。htrace-core-3.0.4 包是存在的 后对比了2.0.4的包,发现两个版本包的目录和报错的均不一样。 后替换为apache的包,又报了其他兼容问题 再不想麻烦的基础上,仔细想了 Read More