George_sz - 博客园

2018年5月4日

分为几个部分：开发调优、资源调优、数据倾斜调优、shuffle调优开发调优：主要包括这几个方面 RDD lineage设计、算子的合理使用、特殊操作的优化等避免创建重复的RDD，尽可能复用同一个RDD 一个RDD包含另外一个RDD，对多次使用的RDD进行持久化内存（序列化），磁盘（序列化） Read More

posted @ 2018-05-04 11:00 George_sz Views(620) Comments(0) Diggs(0) Edit

2018年4月27日

分布式计算标准差，信度

分布式计算标准差，信度当一组数据无法完全加载到内存计算时，那我们就需要进行分布式计算，每台机器计算部分数据然后合成最后结果。例如典型的词频统计案例，但是当最后的结果不能根据每台机器的结果得出，那么就要拆分算法了。 ==拆分算法的标准：算法公式的粒度一定要能根据分布式的各个task处理得出== 拆 Read More

posted @ 2018-04-27 18:10 George_sz Views(651) Comments(0) Diggs(0) Edit

2018年4月11日

kafka简单回顾

先说说遇到的坑回顾下kafka topic：生产组：P0\P1 P14 一个消费组：c0 c1 c2 依据Consumer的负载均衡分配消费顺序“c0:p0 p4 c1:p5 p9 c2:p10 p14 问题：突然发现读offset 堆积太多增加消费者也没用原因： C2节点物理故障，会把数据 Read More

posted @ 2018-04-11 11:33 George_sz Views(371) Comments(0) Diggs(0) Edit

2018年4月6日

hive 存储，解析，处理json数据

hive 处理json数据总体来说有两个方向的路走 1、将json以字符串的方式整个入Hive表，然后通过使用UDF函数解析已经导入到hive中的数据，比如使用LATERAL VIEW json_tuple的方法，获取所需要的列名。 2、在导入之前将json拆成各个字段，导入Hive表的数据是已经解 Read More

posted @ 2018-04-06 23:34 George_sz Views(26683) Comments(0) Diggs(0) Edit

2018年3月30日

Structured Streaming + Kafka 集成中遇到的问题

官方指导：http://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html 1、版本问题起初用的kafka是0.8，各种问题，后面换成官方要求的 0.10.0 以上，一些版本问题再没有了。 2、在windw Read More

posted @ 2018-03-30 13:51 George_sz Views(1295) Comments(0) Diggs(0) Edit

2018年3月26日

pentaho cde 自定义复选下拉框 checkbox select

pentaho 自带的component 虽多，但是当用户需要在一个表格中查看多个组别的数据时，pentaho自带的单选框就不能实现了，所以复选下拉框势在必行，实现效果如下：实现原理是借用了jquery ztree 插件。首先集成ztree 插件，如图画你想要的图书写数据源。。。新建que Read More

posted @ 2018-03-26 14:57 George_sz Views(603) Comments(0) Diggs(0) Edit

2018年3月21日

spark升级后集成hbase-1.0.0-cdh5.4.5异常

.具体场景如下： spark1.6 升级 spark2.2 后分析查询hbase 数据报异常：后发现spark2.2 引入的包路径为 org.htrace htrace-core-3.0.4 版本的时候路径是 org.htrace 而3.1.0的时候已经贡献给Apache了，改叫org.apac Read More

posted @ 2018-03-21 14:22 George_sz Views(720) Comments(0) Diggs(0) Edit

2018年3月17日

spark on yarn 运行问题记录

问题一：此问题一般和内存有关，调大内存再把虚拟和物理监控线程关闭问题二：此问题一般是由于集群配置原因，检查jdk ，yarn 的配置文件问题三：同步集群的时间即可，本人集群其实一直都是时钟同步的，但是不知道为什么第三个节点会突然时钟错乱，jdk版本也错乱了问题问题四：这些问题看表面一 Read More

posted @ 2018-03-17 23:50 George_sz Views(16470) Comments(2) Diggs(2) Edit

2018年1月15日

hive升级遇到的几个小问题

1、hiveserver2正常启动，但是beeline连不上服务。我的服务是开在本机的，但是用主机名和127好像都不能访问服务了把127或者主机名改成真实的IP就可以了 2、创建hive外部表关联hbase数据的时候报一些莫名其妙的错误在hive env 文件里面加上hbase 的环境变量就好 Read More

posted @ 2018-01-15 11:39 George_sz Views(434) Comments(0) Diggs(0) Edit

2018年1月11日

hive 集成 hbase NoClassDefFoundError: org/apache/htrace/Trace

更新了hive版本后，在创建hive外部表级联hbase 的时候报如下异常：起初以为少包：从新导入，确认无误。htrace-core-3.0.4 包是存在的后对比了2.0.4的包，发现两个版本包的目录和报错的均不一样。后替换为apache的包，又报了其他兼容问题再不想麻烦的基础上，仔细想了 Read More

posted @ 2018-01-11 23:10 George_sz Views(2335) Comments(0) Diggs(0) Edit

学而不思则罔，思而不学则殆

一个人的奋斗......

公告