处理不同的数据源(端口,HDFS)
端口
// 地址,端口号,级别(将数据存储在所设置的级别中,这里设置级别为spark的内存) val ds: DStream[String] = ssc.socketTextStream("node1", 44444, StorageLevel.MEMORY_ONLY)
读取HDFS中的数据
import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} object ByHDFS { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[3]").setAppName("hdfs") val ssc: StreamingContext = new StreamingContext(conf, Seconds(10)) /* 定义从HDFS数据源读取流式数据 目录 看一定时间内目录下追加的新文件的个数 如果此目录下有一些历史数据,sparkstreaming不会读取历史数据参与计算 */ val ds = ssc.textFileStream("hdfs://node1:9000/stream") ds.print() ssc.start() ssc.awaitTermination() } }
本文来自博客园,作者:jsqup,转载请注明原文链接:https://www.cnblogs.com/jsqup/p/16643480.html
分类:
日报
, sparkstreaming
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?