随笔档案「2021年11月8日」：RDD的五大特性 ... - lmandcc

2021年11月8日

摘要： 1.分区列表（a list of partitions）。Spark RDD是被分区的，每一个分区都会被一个计算任务（Task）处理，分区数决定并行计算数量，RDD的并行度默认从父RDD传给子RDD。默认情况下，一个HDFS上的数据分片就是一个Partition，RDD分片数决定了并行计算的力度，可阅读全文

posted @ 2021-11-08 22:12 lmandcc 阅读(1026) 评论(0) 推荐(0)

Spark的安装及其配置

摘要： 1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压，配置环境变量配置bin目录解压：tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名：mv spark-2.4. 阅读全文

posted @ 2021-11-08 21:36 lmandcc 阅读(1434) 评论(0) 推荐(0)

lmandcc

没有情调，不懂浪漫，也许这是程序员的一面，但拥有朴实无华的爱是他们的另一面。

公告