曲水修竹

2020年6月8日

摘要：源码解释 /** *Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint 将此RDD标记为检查点。它将保存到检查点内的文件中 *directory set with `SparkContex 阅读全文

posted @ 2020-06-08 10:53 曲水修竹阅读(870) 评论(0) 推荐(0)

2020年5月26日

hive 如何调优

摘要： hive 常见调优方法： 0.11前版本开启MapJoin，之后的版本默认开启 MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高J 阅读全文

posted @ 2020-05-26 11:55 曲水修竹阅读(343) 评论(0) 推荐(0)

2020年5月20日

批量下载B站视频的方法

摘要：首先分析下b站的视频地址构成，如https://www.bilibili.com/video/BV1BW411R7QK?p=1，是由视频编号加节数组成，如p=1代表视频列表的第一集， p=2等与视频第二集。所以类似爬虫，我们可以循环使用脚本命令和第三下载工具，如wget或you-get（Pytho 阅读全文

posted @ 2020-05-20 13:03 曲水修竹阅读(1986) 评论(0) 推荐(0)

2020年3月21日

Flink的三种时间语义与Exactly-Once的保证

摘要： Event Time：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink通过时间戳分配器访问事件时间戳。 Ingestion Time：是数据进入Flink的时间。 Processing Time：是每一个执行基于时间操作的算子的本地系统阅读全文

posted @ 2020-03-21 22:24 曲水修竹阅读(280) 评论(0) 推荐(0)

2020年3月18日

Flink设置并行度的方式和执行级别顺序

摘要： Flink设置并行度的几种方式 1.代码中设置setParallelism() 全局设置： env.setParallelism(3); 算子设置（部分设置）： sum(1).setParallelism(3) 2.客户端CLI设置（或webui直接输入数量）： ./bin/flink run -p 阅读全文

posted @ 2020-03-18 11:01 曲水修竹阅读(3646) 评论(0) 推荐(0)

2019年12月31日

数据倾斜的优化

摘要：数据倾斜产生的原因数据倾斜就是分布式计算过程中，数据分配不均匀，导致最终任务花费的时间很长或失败。不管是hive还是spark，数据倾斜基本都发生在执行join count distinct、group by等会触发Shuffle操作时，如果key值分布过于集中，相同key的值就会被拉到一个节点阅读全文

posted @ 2019-12-31 13:33 曲水修竹阅读(236) 评论(0) 推荐(0)

word HTML文件与Markdwon互相转换的几种方式

摘要： Tip：word文件与Markdwon转换往往是可逆的。无论使用哪种方式，要想完美转换，必须要预先处理掉markdown与word不兼容的格式，如word文件对象，带边框的代码块等等方法一：借助pandoc 或者结合Writage pandoc： Windows/Mac安装下载地址https:/ 阅读全文

posted @ 2019-12-31 13:32 曲水修竹阅读(617) 评论(0) 推荐(0)

2019年12月1日

执行shell脚本报错：bad interpreter:No such file or directory解决办法

摘要：这是因为在windows下编辑的脚本，脚本文件是DOS格式的，而Linux的是unix格式。解决办法：在Linux中打开脚本，用:... 阅读全文

posted @ 2019-12-01 17:40 曲水修竹阅读(63) 评论(0) 推荐(0)

Scala的基本语法(四) 类

摘要： java scala的区别 1) Java是面向对象的编程语言，由于历史原因，Java中还存在着非面向对象的内容:基本类型(in... 阅读全文

posted @ 2019-12-01 12:34 曲水修竹阅读(139) 评论(0) 推荐(0)

Hive 安装配置流程

摘要： Hive 安装流程 1.下载地址 http://archive.apache.org/dist/hive/https://githu... 阅读全文

posted @ 2019-12-01 12:24 曲水修竹阅读(226) 评论(0) 推荐(0)

公告