2025.1.19（周日）

随着大数据的应用，流数据（如社交媒体实时数据、传感器数据等）成为了一个热门话题。在处理流数据时，我们通常会遇到如何保证数据实时性和计算高效性的问题。

如何在Spark中进行流数据处理

from pyspark.streaming import StreamingContext
from pyspark import SparkContext

# 创建SparkContext和StreamingContext
sc = SparkContext("local[2]", "RealTimeApp")
ssc = StreamingContext(sc, 1)  # 每秒处理一次数据

# 从Socket读取实时数据
lines = ssc.socketTextStream("localhost", 9999)

# 处理数据：例如计算单词出现次数
words = lines.flatMap(lambda line: line.split(" "))
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

# 打印结果
word_counts.pprint()

# 启动流计算
ssc.start()
ssc.awaitTermination()

使用Spark Streaming，能够实时处理和分析数据流，实时输出分析结果。

posted @ 2025-02-13 19:29 记得关月亮阅读(2) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 2025.2.6（周四）

· 2025.1.18（周六）

· 九月十四日

· Spark—Streaming大数据处理

· 学习记录20

阅读排行：
· 使用C#创建一个MCP客户端
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 按钮权限的设计及实现

公告

昵称：记得关月亮
园龄： 1年11个月
粉丝： 1
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

Sunyiran

2025.1.19（周日）

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜