摘要: 源码解释 /** *Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint 将此RDD标记为检查点。它将保存到检查点内的文件中 *directory set with `SparkContex 阅读全文
posted @ 2020-06-08 10:53 曲水修竹 阅读(816) 评论(0) 推荐(0) 编辑
摘要: hive 常见调优方法: 0.11前版本开启MapJoin,之后的版本默认开启 MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高J 阅读全文
posted @ 2020-05-26 11:55 曲水修竹 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 首先分析下b站的视频地址构成,如https://www.bilibili.com/video/BV1BW411R7QK?p=1,是由视频编号加节数组成,如p=1代表视频列表的第一集, p=2等与视频第二集。 所以类似爬虫,我们可以循环使用脚本命令和第三下载工具,如wget或you-get(Pytho 阅读全文
posted @ 2020-05-20 13:03 曲水修竹 阅读(1726) 评论(0) 推荐(0) 编辑
摘要: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。 Ingestion Time:是数据进入Flink的时间。 Processing Time:是每一个执行基于时间操作的算子的本地系统 阅读全文
posted @ 2020-03-21 22:24 曲水修竹 阅读(201) 评论(0) 推荐(0) 编辑
摘要: Flink设置并行度的几种方式 1.代码中设置setParallelism() 全局设置: env.setParallelism(3); 算子设置(部分设置): sum(1).setParallelism(3) 2.客户端CLI设置(或webui直接输入数量): ./bin/flink run -p 阅读全文
posted @ 2020-03-18 11:01 曲水修竹 阅读(3486) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜产生的原因 数据倾斜就是分布式计算过程中,数据分配不均匀,导致最终任务花费的时间很长或失败。不管是hive还是spark, 数据倾斜基本都发生在执行join count distinct、group by等会触发Shuffle操作时,如果key值分布过于集中,相同key的值就会被拉到一个节点 阅读全文
posted @ 2019-12-31 13:33 曲水修竹 阅读(206) 评论(0) 推荐(0) 编辑
摘要: Tip:word文件与Markdwon转换往往是可逆的。无论使用哪种方式,要想完美转换,必须要预先处理掉markdown与word不兼容的格式,如word文件对象,带边框的代码块等等 方法一:借助pandoc 或者结合Writage pandoc: Windows/Mac安装 下载地址https:/ 阅读全文
posted @ 2019-12-31 13:32 曲水修竹 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 这是因为在windows下编辑的脚本,脚本文件是DOS格式的,而Linux的是unix格式。 解决办法:在Linux中打开脚本,用:... 阅读全文
posted @ 2019-12-01 17:40 曲水修竹 阅读(19) 评论(0) 推荐(0) 编辑
摘要: java scala的区别 ​ 1) Java是面向对象的编程语言,由于历史原因,Java中还存在着非面向对象的内容:基本类型(in... 阅读全文
posted @ 2019-12-01 12:34 曲水修竹 阅读(115) 评论(0) 推荐(0) 编辑
摘要: Hive 安装流程 1.下载地址 http://archive.apache.org/dist/hive/https://githu... 阅读全文
posted @ 2019-12-01 12:24 曲水修竹 阅读(189) 评论(0) 推荐(0) 编辑