carsonwuu

2021年6月24日

摘要：转载链接：https://zhuanlan.zhihu.com/p/130708277 Flink的转换操作是无法访问事件的时间戳信息和水印信息的。例如我们常用的MapFunction转换操作就无法访问时间戳或者当前事件的事件时间。而这在一些应用场景下，极为重要。因此，Flink DataStre 阅读全文

posted @ 2021-06-24 14:16 carsonwuu 阅读(244) 评论(0) 推荐(0) 编辑

2021年5月21日

spark读取压缩文件

摘要： spark读取压缩文件，对同一个压缩文件内文件进行分布式处理，粒度：文件级 -| .rar.gz -| .gz -| .zip -| .zip -| .gz -| .zip 使用 sc.binaryFile()得到-> JavaPairRDD<String,PortableDataStream> k 阅读全文

posted @ 2021-05-21 09:56 carsonwuu 阅读(838) 评论(0) 推荐(0) 编辑

2020年3月3日

spark日志输出

摘要： spark默认使用log4j记录日志。目标：将spark日志按照天输出到日志中，并且只保留15天的记录。以下介绍两种办法： 1、日志重定向+shell脚本定时删除日志（1）日志重定向： sh spark-submit.sh >> log/`date +%Y-%m-%d`.log 2>&1 & 阅读全文

posted @ 2020-03-03 15:33 carsonwuu 阅读(6866) 评论(0) 推荐(0) 编辑

2020年1月15日

spark并行度加载关系数据库

摘要：方法一：针对整形字段ECI进行并行度加载：并行度为3 1 SparkConf sparkConf = new SparkConf(); 2 sparkConf.setAppName("jdbc").setMaster("local[4]"); 3 JavaSparkContext jsc = new 阅读全文

posted @ 2020-01-15 17:14 carsonwuu 阅读(337) 评论(0) 推荐(0) 编辑

2019年11月19日

【java记录】序列化拷贝

摘要： 1 public static <T extends Serializable> T clone(T obj) { 2 T cloneObj = null; 3 try { 4 // 写入字节流 5 ByteArrayOutputStream out = new ByteArrayOutputStr 阅读全文

posted @ 2019-11-19 14:22 carsonwuu 阅读(222) 评论(0) 推荐(0) 编辑

2019年10月9日

客户端远程访问高可用（HA）hdfs

摘要：当hadoop namenode是HA集群时，hdfs可能动态切换hdfs主节点，客户端远程访问hdfs有两种实现方法：方法1：配置多个hdfs地址，每次操作先判断可用的hdfs地址。形如：hdfs://192.168.2.102:9000,hdfs://192.168.2.101:9000，以阅读全文

posted @ 2019-10-09 14:22 carsonwuu 阅读(2609) 评论(0) 推荐(0) 编辑

2019年10月8日

spark算法

摘要： workcount top-k 1 package examples.topk; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaSparkContext; 5 import org.apac 阅读全文

posted @ 2019-10-08 10:57 carsonwuu 阅读(355) 评论(0) 推荐(0) 编辑

2019年9月27日

算子的分类和宽依赖算子、窄依赖算子

摘要：一、转换算子转换算子 textfile，也会惰性加载 Transformation，懒执行，需要Action触发执行filter过滤 RDD[T]==>RDD[T],窄依赖 mapRDD[T] ->RDD[O], 窄依赖 flatMapRDD[T]–>RDD[[O]],一对多，窄依赖, mapTo 阅读全文

posted @ 2019-09-27 11:28 carsonwuu 阅读(1608) 评论(0) 推荐(0) 编辑

2019年9月24日

单元测试junit使用

摘要： 1.maven依赖 2.方法介绍（junit）（1）@BeforeClass：静态方法，当前测试类加载前调用；（2）@AfterClass：静态方法，当前测试类回收前调用；（3）@Before：每一次执行@Test修饰的测试方法前调用，常用于初始化；（4）@After：每一次执行完@Test 阅读全文

posted @ 2019-09-24 19:07 carsonwuu 阅读(1266) 评论(0) 推荐(0) 编辑

2019年9月19日

spark1.x和spark2.x兼容Iterable和Iterator问题【未解决】

摘要：转载于：https://www.cnblogs.com/huiandong/p/9982516.html 本文是转载，但是经过验证，该文中的方法在编译的时候没问题，运行就报版本问题。尚未找到解决方法，仍需手动维护两个版本spark程序。 1. spark 1.x 升级到spark 2.x 对于普通的阅读全文

posted @ 2019-09-19 14:33 carsonwuu 阅读(380) 评论(0) 推荐(0) 编辑

公告