摘要: 1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性 阅读全文
posted @ 2021-05-26 16:45 每天都要进步啊 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 1.RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度 RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行)RDD不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) 创建RDD有哪些中方式呢 阅读全文
posted @ 2021-05-26 15:46 每天都要进步啊 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 提交一个spark程序到spark集群,会产生哪些进程? SparkSubmint(Driver)提交任务Executor 执行真正的计算任务的 提交任务可以指定多个master地址,目的是为了提交任务高可用 bin/spark-submit --master spark://node-4:7077 阅读全文
posted @ 2021-05-26 14:05 每天都要进步啊 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 项目中用到了kafka,没用Streaming,只是用了个简单的kafka连接 最初的使用的是consumer.poll(10) 这样拉取得数据, 发现这样得拉取数据得方式当连接不上kafka时或者连接不正确,或者broker失败,总而言之就是连接不上kafka,会使得程序一直在运行停不下来. 解决 阅读全文
posted @ 2021-05-26 09:36 每天都要进步啊 阅读(6546) 评论(0) 推荐(2) 编辑