处理不同的数据源(端口,HDFS)

端口

// 地址,端口号,级别(将数据存储在所设置的级别中,这里设置级别为spark的内存)
val ds: DStream[String] = ssc.socketTextStream("node1", 44444, StorageLevel.MEMORY_ONLY)

读取HDFS中的数据

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
object ByHDFS {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local[3]").setAppName("hdfs")
val ssc: StreamingContext = new StreamingContext(conf, Seconds(10))
/*
定义从HDFS数据源读取流式数据 目录
看一定时间内目录下追加的新文件的个数
如果此目录下有一些历史数据,sparkstreaming不会读取历史数据参与计算
*/
val ds = ssc.textFileStream("hdfs://node1:9000/stream")
ds.print()
ssc.start()
ssc.awaitTermination()
}
}

posted @   jsqup  阅读(22)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
点击右上角即可分享
微信分享提示