2020 年 10月 30 日随笔档案 - 大数据学习与分享

2020年10月30日

摘要： HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务，同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树，客户端可通过路径来访问文件，如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色：Namenode、Datanode（非HA模式会存在Secondary Namenode）阅读全文

posted @ 2020-10-30 19:56 大数据学习与分享阅读(571) 评论(0) 推荐(1) 编辑

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

摘要： Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是Spark RDD，在Spark其他组件如SparkStreaming中也是如此，这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子，而collect、count、saveAsTextFile、countByKey、foreach则为action算子阅读全文

posted @ 2020-10-30 10:39 大数据学习与分享阅读(207) 评论(0) 推荐(0) 编辑

公告