王加鸿

2023年7月31日

关于spark写clickhouse出现 too many parts(300)错误的最佳解决方式

摘要：出现这个问题的根本原因是clickhouse插入速度超过clickhouse的文件合并速度（默认300）解决方式如下觉得好用记得点个关注或者赞哈阅读全文

posted @ 2023-07-31 13:17 王加鸿阅读(444) 评论(0) 推荐(0)

2019年1月11日

Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd解决方法

摘要：啥都不说!直接上干货! 打开对应路径下的hadoop-env.cmd 将 set JAVA_HOME=%JAVA_HOME% 更换为绝对路径↓ set JAVA_HOME="E:\Development Software\Java\jdk1.8.0_72" 即可如安装在C盘下 C:\Program 阅读全文

posted @ 2019-01-11 09:48 王加鸿阅读(2622) 评论(0) 推荐(1)

2019年1月4日

关于flume的filechannel的 full 问题

摘要：事务启动以后，批量向事务Transaction的一个putList的尾部写入，putlist是一个LinkedBlockingDeque . 事务提交的时候，把putlist中的event批量移除，转移到Channel的一个LinkedBlockingDeque 里面来. 而SinkRunner 阅读全文

posted @ 2019-01-04 18:24 王加鸿阅读(1172) 评论(0) 推荐(0)

2018年12月29日

spark or sparkstreaming的内存泄露问题?

摘要：关于sparkstreaming的无法正常产生数据 >到崩溃 >到数据读写极为缓慢(或块丢失?)问题前两阶段请看我的博客:https://www.cnblogs.com/wang-jia-hong/p/10189513.html 那么我来分享下我对streaming数据读写突然变的极为缓慢的问题的阅读全文

posted @ 2018-12-29 15:49 王加鸿阅读(1042) 评论(0) 推荐(0)

2018年12月28日

关于sparkStreaming(spark on yarn)的一个坑!

摘要：前些天我维护的一个streaming实时报表挂了,情况:数据无法实时更新增长,然后查看了报表所依赖的五张sqlserver的表,发现,只有1张的数据是正常写入的,还一张数据非正常写入,还有3张完全没有数据写入.刚开始认为是不是数据库链接出问题了,但是!!!!我们的一个spark on yarn的批处阅读全文

posted @ 2018-12-28 11:28 王加鸿阅读(1527) 评论(0) 推荐(0)

2018年12月25日

关于Xshell无法连接本地虚拟机的问题

摘要：近期想搭建一个测试用的集群，但是！刚开始搭第一台虚拟机就出现问题了，Xshell无法连接到虚拟机！然后我更改了/etc/sysconfig/network-scripts/ifcfg-ens33文件内容如下上面红框中的的网段选择应为公司的内网网段以下红框为我的内网网段其实出现这个问题，就阅读全文

posted @ 2018-12-25 18:24 王加鸿阅读(1881) 评论(0) 推荐(0)

2018年12月24日

我一个自己的关于II和&&的逻辑判断(傻逼型)

摘要：原因首先概述下起始原因:本来埋点的数据中传递来的URL只有http://开头的数据,所以上一个编写此程序的人在定义产品ID和出发口岸时加了这样的判断阅读全文

posted @ 2018-12-24 13:51 王加鸿阅读(1072) 评论(0) 推荐(0)

2018年12月12日

Flume的一些报错问题解决(持续更新中)

摘要：严谨转载--否则追究法律责任作者王加鸿 bug 1 解决方案将这两个路径下的文件清空即可 ↑ 解决方案: 暂无(如无法连接,会自动创建连接,但可能长久后会造成连接过多) bug 3 解决方案:初步分析,是埋点数据产生的json格式解析出问题了后来查看源代码在org.apache.flume. 阅读全文

posted @ 2018-12-12 17:02 王加鸿阅读(1138) 评论(0) 推荐(0)

公告