2021 年 5月 26 日随笔档案 - 每天都要进步啊

2021年5月26日

摘要： 1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性阅读全文

posted @ 2021-05-26 16:45 每天都要进步啊阅读(328) 评论(0) 推荐(0) 编辑

rdd算子

摘要： 1.RDD是一个基本的抽象，操作RDD就像操作一个本地集合一样，降低了编程的复杂度 RDD的算子分为两类，一类是Transformation（lazy），一类是Action（触发任务执行）RDD不存真正要计算的数据，而是记录了RDD的转换关系（调用了什么方法，传入什么函数）创建RDD有哪些中方式呢阅读全文

posted @ 2021-05-26 15:46 每天都要进步啊阅读(325) 评论(0) 推荐(0) 编辑

Spark执行任务流程简介

摘要：提交一个spark程序到spark集群，会产生哪些进程？ SparkSubmint（Driver）提交任务Executor 执行真正的计算任务的提交任务可以指定多个master地址，目的是为了提交任务高可用 bin/spark-submit --master spark://node-4:7077 阅读全文

posted @ 2021-05-26 14:05 每天都要进步啊阅读(314) 评论(0) 推荐(0) 编辑

kafka的consumer.poll（Long）和consumer.poll(Duration.ofMillis(2000)) 的区别

摘要：项目中用到了kafka，没用Streaming，只是用了个简单的kafka连接最初的使用的是consumer.poll(10) 这样拉取得数据，发现这样得拉取数据得方式当连接不上kafka时或者连接不正确，或者broker失败，总而言之就是连接不上kafka，会使得程序一直在运行停不下来. 解决阅读全文

posted @ 2021-05-26 09:36 每天都要进步啊阅读(6546) 评论(0) 推荐(2) 编辑

大宝丽呀

子夏曰：“日知其所亡，月无忘其所能，可谓好学也已矣。”

公告