01 2024 档案

摘要:流式任务需要 7*24 小时执行,但是有时涉及到升级代码需要主动停止程序,但是分布式程序,没办法做到一个个进程去杀死,所有配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内部程序关闭。 其实就是单独起一个线程专门去专门查找程序是否停止的标志 import java.net.URI import 阅读全文
posted @ 2024-01-24 16:22 会飞的猪仔 阅读(65) 评论(0) 推荐(0) 编辑
摘要:输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作,那么这些 DStream 就都不会被求值。如果StreamingContext 中没有设定输 阅读全文
posted @ 2024-01-24 16:08 会飞的猪仔 阅读(57) 评论(0) 推荐(0) 编辑
摘要:Window Operations 可以设置窗口的大小和滑动窗口的间隔来动态的获取当前 Steaming 的允许状态。所有基于窗口的操作都需要两个参数,分别为窗口时长以及滑动步长。 ➢ 窗口时长:计算内容的时间范围; ➢ 滑动步长:隔多久触发一次计算。 注意:这两者都必须为采集周期大小的整数倍。 o 阅读全文
posted @ 2024-01-24 11:17 会飞的猪仔 阅读(12) 评论(0) 推荐(0) 编辑
摘要:UpdateStateByKey 原语用于记录历史记录,有时,我们需要在 DStream 中跨批次维护状态(例如流计算中累加 wordcount)。针对这种情况,updateStateByKey()为我们提供了对一个状态变量的访问,用于键值对形式的 DStream。给定一个由(键,事件)对构成的 D 阅读全文
posted @ 2024-01-24 10:50 会飞的猪仔 阅读(103) 评论(0) 推荐(0) 编辑
摘要:无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上,也就是转化 DStream 中的每一个 RDD。部分无状态转化操作列在了下表中。注意,针对键值对的 DStream 转化操作(比如reduceByKey())要添加 import StreamingContext._才能在 Scala 中 阅读全文
posted @ 2024-01-23 18:25 会飞的猪仔 阅读(5) 评论(0) 推荐(0) 编辑
摘要:RDD是怎么生成的? RDD依靠什么生成?根据DStream来的 RDD生成的依据是什么? Spark Streaming中RDD的执行是否和Spark Core中的RDD执行有所不同? 运行之后我们对RDD怎么处理? ForEachDStream不一定会触发Job的执行,但是它一定会触发job的产 阅读全文
posted @ 2024-01-23 17:20 会飞的猪仔 阅读(54) 评论(0) 推荐(0) 编辑
摘要:/** * Return a new DStream by applying 'join' between RDDs of `this` DStream and `other` DStream. * The supplied org.apache.spark.Partitioner is used 阅读全文
posted @ 2024-01-23 16:44 会飞的猪仔 阅读(38) 评论(0) 推荐(0) 编辑
摘要:/** * Return a new DStream in which each RDD is generated by applying a function * on each RDD of 'this' DStream. 在调用的stream的RDD中应用传入的函数,返回一个新的DStream 阅读全文
posted @ 2024-01-23 15:45 会飞的猪仔 阅读(42) 评论(0) 推荐(0) 编辑
摘要:spark streaming可以从任何数据源来接收数据,哪怕是除了它内置支持的数据源以外的其他数据源(比如flume、kafka、socket等)。如果我们想要从spark streaming没有内置支持的数据源中接收实时数据,那么我们需要自己实现一个receiver。实现一个自定义的receiv 阅读全文
posted @ 2024-01-22 17:54 会飞的猪仔 阅读(30) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming是个准实时、微批量的流式处理架构,数据是向水流一样一直不断流过来,那么我们该怎么配置数据的接收速率? Spark1.5以前的版本,用户若需要限制Receiver的数据接收速率,可以通过设置静态配置参数“spark.streaming.receiver.maxRate”的 阅读全文
posted @ 2024-01-22 11:06 会飞的猪仔 阅读(27) 评论(0) 推荐(0) 编辑
摘要:DataFrame、DataSet 和 Spark SQL 的实际执行流程都是相同的: 1.进行 DataFrame/Dataset/SQL 编程;2.如果是有效的代码,即代码没有编译错误,Spark 会将其转换为一个逻辑计划;3.Spark 将此逻辑计划转换为物理计划,同时进行代码优化;4.Spa 阅读全文
posted @ 2024-01-19 17:13 会飞的猪仔 阅读(91) 评论(0) 推荐(0) 编辑
摘要:一、什么是RDD? RDD叫做弹性分布式数据集,是spark中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性、不可变、可分区、里面元素可并行计算的集合。 1.弹性: (1)存储的弹性:内存与磁盘的自动切换 (2)容错的弹性:数据丢失可以自动恢复 (3)计算的弹性:计算出错重试机制 (4)分 阅读全文
posted @ 2024-01-18 18:21 会飞的猪仔 阅读(833) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming用于流式数据处理(准实时,微批次),Spark Streaming支持的数据源很多,例如:kafka、Flume、简单的TCP套接字等,数据输入后可以用Spark的高度抽象原语,如:map、join、reduce、window等进行运算,而结果也可以保存在很多地方,如: 阅读全文
posted @ 2024-01-18 11:42 会飞的猪仔 阅读(17) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示