远去的列车 - 博客园

2022年3月27日

摘要： Spark读取HDFS目录，若该目录下存在大量小文件时，每个文件都会生成一个Task，当存在大量任务时，可能存在性能不足的问题，可以使用CombineTextInputFormat类代替TextInputFormat类进行优化，同时配合使用hadoop参数mapreduce.input.filein 阅读全文

posted @ 2022-03-27 15:17 远去的列车阅读(743) 评论(0) 推荐(0) 编辑

2021年12月31日

Spark如何读取gbk等非utf-8编码的文件

摘要：大数据环境基本都是utf-8编码，如果数据文件非utf-8编码，Spark读取时会乱码，经验项目验证，通过sc.hadoopFile接口比较可靠，该接口返回的数据每行表示为<行偏移,行内容Text>，然后通过map方法，重新构造String，这样获得的String不会乱码，具体实现方式如下代码： / 阅读全文

posted @ 2021-12-31 10:20 远去的列车阅读(362) 评论(0) 推荐(0) 编辑

2021年12月30日

利用SparkLauncher在代码中调用Spark作业

摘要：背景项目需要处理很多文件，而一些文件很大有几十GB，因此考虑对于这种文件，专门编写Spark程序处理，为了程序的统一处理，需要在代码中调用Spark作业来处理大文件。实现方案经过调研，发现可以使用Spark提供的SparkLauncher类进行Spark作业的提交，这个类的使用有很多参数需要注阅读全文

posted @ 2021-12-30 20:11 远去的列车阅读(1079) 评论(0) 推荐(0) 编辑

2021年2月24日

linux机器上实现占用固定cpu使用率，并将程序绑定到固定cpu上

摘要：在多处理器的linux机器上，编写程序使cpu利用率维持在固定的比率上固定cpu使用率程序 public class Test{ public static void main(String[] args) throws InterruptedException { while (true){ l 阅读全文

posted @ 2021-02-24 21:18 远去的列车阅读(471) 评论(0) 推荐(0) 编辑

2020年12月17日

多个HDFS集群的fs.defaultFS配置一样，造成应用一直连接同一个集群的问题分析

摘要：背景应用需要对两个集群中的同一目录下的HDFS文件个数和文件总大小进行比对，在测试环境中发现，即使两边HDFS目录下的数据不一样，应用日志显示两边始终比对一致，分下下来发现，应用连的一直是同一个集群。大数据集群：CDH6.2.1 定位分析应用代码片段 Configuration mainconf 阅读全文

posted @ 2020-12-17 11:33 远去的列车阅读(3174) 评论(0) 推荐(0) 编辑

2020年12月4日

使用Spark的newAPIHadoopRDD接口访问有kerberos认证的hbase

摘要：使用newAPIHadoopRDD接口访问hbase数据，网上有很多可以参考的例子，但是由于环境使用了kerberos安全加固，spark使用有kerberos认证的hbase，网上的参考资料不多，访问hbase时，有些需要注意的地方，这里简单记录下最后的实现方案以及实现过程中遇到的坑，博客有ker 阅读全文

posted @ 2020-12-04 19:35 远去的列车阅读(1518) 评论(3) 推荐(0) 编辑

2020年11月17日

CDH集群spark-shell执行过程分析

摘要：目的刚入门spark，安装的是CDH的版本，版本号spark-core_2.11-2.4.0-cdh6.2.1，部署了cdh客户端（非集群节点），本文主要以spark-shell为例子，对在cdh客户端上提交spark作业原理进行简单分析，加深理解 spark-shell执行启动spark-sh 阅读全文

posted @ 2020-11-17 22:05 远去的列车阅读(993) 评论(0) 推荐(0) 编辑

2020年11月16日

记一次 HBase Master is initializing 问题处理

摘要：问题 hbase shell中建立建表出错分析 org.apache.hadoop.hbase.PleaseHoldException: Master is initializing代表Master正在初始化中，出现这种错误的原因有很多，查看hbase web界面，发现如下提示：看下Master 阅读全文

posted @ 2020-11-16 21:11 远去的列车阅读(6177) 评论(0) 推荐(0) 编辑

2020年11月13日

cloudera集群开启kerberos认证后，删除zk中的/hbase目录

摘要：问题在cdh集群中开启了kerberos认证，hbase集群出现一点问题，需要通过zookeeper-client访问zookeeper，删除/hbase节点时候报错：Authentication is not valid : /hbase 解决登录zk，查看权限 zookeeper-clien 阅读全文

posted @ 2020-11-13 18:44 远去的列车阅读(946) 评论(0) 推荐(0) 编辑

2020年11月4日

Flink读写Redis（三）-读取redis数据

摘要：自定义flink的RedisSource，实现从redis中读取数据，这里借鉴了flink-connector-redis_2.11的实现逻辑，实现对redis读取的逻辑封装，flink-connector-redis_2.11的使用和介绍可参考之前的博客，项目中需要引入flink-connecto 阅读全文

posted @ 2020-11-04 20:51 远去的列车阅读(12381) 评论(1) 推荐(1) 编辑

记录

公众号：远去的列车

公告