摘要:
源码解释 /** *Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint 将此RDD标记为检查点。它将保存到检查点内的文件中 *directory set with `SparkContex 阅读全文
摘要:
hive 常见调优方法: 0.11前版本开启MapJoin,之后的版本默认开启 MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高J 阅读全文
摘要:
首先分析下b站的视频地址构成,如https://www.bilibili.com/video/BV1BW411R7QK?p=1,是由视频编号加节数组成,如p=1代表视频列表的第一集, p=2等与视频第二集。 所以类似爬虫,我们可以循环使用脚本命令和第三下载工具,如wget或you-get(Pytho 阅读全文
摘要:
Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。 Ingestion Time:是数据进入Flink的时间。 Processing Time:是每一个执行基于时间操作的算子的本地系统 阅读全文
摘要:
Flink设置并行度的几种方式 1.代码中设置setParallelism() 全局设置: env.setParallelism(3); 算子设置(部分设置): sum(1).setParallelism(3) 2.客户端CLI设置(或webui直接输入数量): ./bin/flink run -p 阅读全文
摘要:
数据倾斜产生的原因 数据倾斜就是分布式计算过程中,数据分配不均匀,导致最终任务花费的时间很长或失败。不管是hive还是spark, 数据倾斜基本都发生在执行join count distinct、group by等会触发Shuffle操作时,如果key值分布过于集中,相同key的值就会被拉到一个节点 阅读全文
摘要:
Tip:word文件与Markdwon转换往往是可逆的。无论使用哪种方式,要想完美转换,必须要预先处理掉markdown与word不兼容的格式,如word文件对象,带边框的代码块等等 方法一:借助pandoc 或者结合Writage pandoc: Windows/Mac安装 下载地址https:/ 阅读全文