摘要: 转载链接:https://zhuanlan.zhihu.com/p/130708277 Flink的转换操作是无法访问事件的时间戳信息和水印信息的。例如我们常用的MapFunction转换操作就无法访问时间戳或者当前事件的事件时间。而这在一些应用场景下,极为重要。 因此,Flink DataStre 阅读全文
posted @ 2021-06-24 14:16 carsonwuu 阅读(244) 评论(0) 推荐(0) 编辑
摘要: spark读取压缩文件,对同一个压缩文件内文件进行分布式处理,粒度:文件级 -| .rar.gz -| .gz -| .zip -| .zip -| .gz -| .zip 使用 sc.binaryFile()得到-> JavaPairRDD<String,PortableDataStream> k 阅读全文
posted @ 2021-05-21 09:56 carsonwuu 阅读(838) 评论(0) 推荐(0) 编辑
摘要: spark默认使用log4j记录日志。 目标:将spark日志按照天输出到日志中,并且只保留15天的记录。 以下介绍两种办法: 1、日志重定向+shell脚本定时删除日志 (1)日志重定向: sh spark-submit.sh >> log/`date +%Y-%m-%d`.log 2>&1 & 阅读全文
posted @ 2020-03-03 15:33 carsonwuu 阅读(6866) 评论(0) 推荐(0) 编辑
摘要: 方法一:针对整形字段ECI进行并行度加载:并行度为3 1 SparkConf sparkConf = new SparkConf(); 2 sparkConf.setAppName("jdbc").setMaster("local[4]"); 3 JavaSparkContext jsc = new 阅读全文
posted @ 2020-01-15 17:14 carsonwuu 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 1 public static <T extends Serializable> T clone(T obj) { 2 T cloneObj = null; 3 try { 4 // 写入字节流 5 ByteArrayOutputStream out = new ByteArrayOutputStr 阅读全文
posted @ 2019-11-19 14:22 carsonwuu 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 当hadoop namenode是HA集群时,hdfs可能动态切换hdfs主节点,客户端远程访问hdfs有两种实现方法: 方法1:配置多个hdfs地址,每次操作先判断可用的hdfs地址。 形如:hdfs://192.168.2.102:9000,hdfs://192.168.2.101:9000,以 阅读全文
posted @ 2019-10-09 14:22 carsonwuu 阅读(2609) 评论(0) 推荐(0) 编辑
摘要: workcount top-k 1 package examples.topk; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaSparkContext; 5 import org.apac 阅读全文
posted @ 2019-10-08 10:57 carsonwuu 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 一、转换算子转换算子 textfile,也会惰性加载 Transformation,懒执行,需要Action触发执行filter过滤 RDD[T]==>RDD[T],窄依赖 mapRDD[T] ->RDD[O], 窄依赖 flatMapRDD[T]–>RDD[[O]],一对多 ,窄依赖, mapTo 阅读全文
posted @ 2019-09-27 11:28 carsonwuu 阅读(1608) 评论(0) 推荐(0) 编辑
摘要: 1.maven依赖 2.方法介绍(junit) (1)@BeforeClass:静态方法,当前测试类加载前调用; (2)@AfterClass:静态方法,当前测试类回收前调用; (3)@Before:每一次执行@Test修饰的测试方法前调用,常用于初始化; (4)@After:每一次执行完@Test 阅读全文
posted @ 2019-09-24 19:07 carsonwuu 阅读(1266) 评论(0) 推荐(0) 编辑
摘要: 转载于:https://www.cnblogs.com/huiandong/p/9982516.html 本文是转载,但是经过验证,该文中的方法在编译的时候没问题,运行就报版本问题。尚未找到解决方法,仍需手动维护两个版本spark程序。 1. spark 1.x 升级到spark 2.x 对于普通的 阅读全文
posted @ 2019-09-19 14:33 carsonwuu 阅读(380) 评论(0) 推荐(0) 编辑