pyspark rdd 数据持久化


from pyspark import SparkContext ,SparkConf

conf=SparkConf().setAppName("miniProject").setMaster("local[4]")
#conf=SparkConf().setAppName("lg").setMaster("spark://192.168.10.182:7077")
sc = SparkContext(conf=conf)

rdd = sc.parallelize(range(1, 4)).map(lambda x: (x, "a" * x))

rdd.saveAsSequenceFile("path/to/file")

print(sorted(sc.sequenceFile("path/to/file").collect()))
sc.stop()

[(1, 'a'), (2, 'aa'), (3, 'aaa')]

posted @ 2019-03-07 22:28 luoganttcc 阅读(758) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· .NET10 - 预览版1新功能体验（一）

公告

昵称： luoganttcc
园龄： 8年1个月
粉丝： 7
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

luoganttcc

pyspark rdd 数据持久化

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论