2019 年 11月 22 日随笔档案 - SimbaStar

2019年11月22日

摘要： 1. hdfs存文件的时候会把文件切割成block，block分布在不同节点上，目前设置replicate=3，每个block会出现在3个节点上。 2. Spark以RDD概念为中心运行，RDD代表抽象数据集。以代码为例： sc.textFile(“abc.log”) textFile()函数会创建阅读全文

posted @ 2019-11-22 11:52 SimbaStar 阅读(180) 评论(0) 推荐(0) 编辑