1、Hdfs的block和spark的partition有什么区别吗? 在hdfs中的block是分布式存储的最小单元,等分,并且可以设置冗余,这样设计会出现一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到,读取对应的内容,例如快手利用hdfs来进行存储视频。 Spark中的pariti Read More
posted @ 2021-07-06 18:19 欣欣姐 Views(258) Comments(0) Diggs(0) Edit
1. OVER():用于指定分析函数工作时的数据窗口大小,这个数据窗口大小可能会随着行的变而变化; 2. CURRENT ROW:当前行; n PRECEDING:往前n行数据; n FOLLOWING:往后n行数据; UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起 Read More
posted @ 2021-07-06 11:22 欣欣姐 Views(898) Comments(0) Diggs(0) Edit