摘要:
1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性 阅读全文
摘要:
1.RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度 RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行)RDD不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) 创建RDD有哪些中方式呢 阅读全文
摘要:
提交一个spark程序到spark集群,会产生哪些进程? SparkSubmint(Driver)提交任务Executor 执行真正的计算任务的 提交任务可以指定多个master地址,目的是为了提交任务高可用 bin/spark-submit --master spark://node-4:7077 阅读全文
摘要:
项目中用到了kafka,没用Streaming,只是用了个简单的kafka连接 最初的使用的是consumer.poll(10) 这样拉取得数据, 发现这样得拉取数据得方式当连接不上kafka时或者连接不正确,或者broker失败,总而言之就是连接不上kafka,会使得程序一直在运行停不下来. 解决 阅读全文