摘要:
转载链接:https://zhuanlan.zhihu.com/p/130708277 Flink的转换操作是无法访问事件的时间戳信息和水印信息的。例如我们常用的MapFunction转换操作就无法访问时间戳或者当前事件的事件时间。而这在一些应用场景下,极为重要。 因此,Flink DataStre 阅读全文
摘要:
spark读取压缩文件,对同一个压缩文件内文件进行分布式处理,粒度:文件级 -| .rar.gz -| .gz -| .zip -| .zip -| .gz -| .zip 使用 sc.binaryFile()得到-> JavaPairRDD<String,PortableDataStream> k 阅读全文
摘要:
spark默认使用log4j记录日志。 目标:将spark日志按照天输出到日志中,并且只保留15天的记录。 以下介绍两种办法: 1、日志重定向+shell脚本定时删除日志 (1)日志重定向: sh spark-submit.sh >> log/`date +%Y-%m-%d`.log 2>&1 & 阅读全文
摘要:
方法一:针对整形字段ECI进行并行度加载:并行度为3 1 SparkConf sparkConf = new SparkConf(); 2 sparkConf.setAppName("jdbc").setMaster("local[4]"); 3 JavaSparkContext jsc = new 阅读全文
摘要:
1 public static <T extends Serializable> T clone(T obj) { 2 T cloneObj = null; 3 try { 4 // 写入字节流 5 ByteArrayOutputStream out = new ByteArrayOutputStr 阅读全文
摘要:
当hadoop namenode是HA集群时,hdfs可能动态切换hdfs主节点,客户端远程访问hdfs有两种实现方法: 方法1:配置多个hdfs地址,每次操作先判断可用的hdfs地址。 形如:hdfs://192.168.2.102:9000,hdfs://192.168.2.101:9000,以 阅读全文
摘要:
workcount top-k 1 package examples.topk; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaSparkContext; 5 import org.apac 阅读全文
摘要:
一、转换算子转换算子 textfile,也会惰性加载 Transformation,懒执行,需要Action触发执行filter过滤 RDD[T]==>RDD[T],窄依赖 mapRDD[T] ->RDD[O], 窄依赖 flatMapRDD[T]–>RDD[[O]],一对多 ,窄依赖, mapTo 阅读全文
摘要:
1.maven依赖 2.方法介绍(junit) (1)@BeforeClass:静态方法,当前测试类加载前调用; (2)@AfterClass:静态方法,当前测试类回收前调用; (3)@Before:每一次执行@Test修饰的测试方法前调用,常用于初始化; (4)@After:每一次执行完@Test 阅读全文
摘要:
转载于:https://www.cnblogs.com/huiandong/p/9982516.html 本文是转载,但是经过验证,该文中的方法在编译的时候没问题,运行就报版本问题。尚未找到解决方法,仍需手动维护两个版本spark程序。 1. spark 1.x 升级到spark 2.x 对于普通的 阅读全文