pyspark读取hdfs 二进制文件
程序如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName( "My test App" ) sc = SparkContext(conf = conf) """ lines = sc.textFile("/tmp/tmp.txt") print lines.count() print lines.first() """ def load_model(sc, model_filename): rdd = sc.binaryFiles( "/tmp/test.pkl" ) import pickle from io import BytesIO data_arr = rdd.values(). map ( lambda p: pickle.load(BytesIO(p))).collect() print (data_arr) load_model(sc, None ) |
其中,test.pkl:
a = {'xx': 999, 'hi': 1223}
>>> f2=open("test.pkl", "wb")
>>> pk.dump(a, f)
>>> f.close()
>>> f2=open("test.pkl", "rb")
>>> pk.load(f2)
{'xx': 999, 'hi': 1223}
>>>
上传到hdfs:
dfs -put test.pkl /tmp/
然后pyspark里运行上述代码:
结果输出:
>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]
>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
2017-07-11 我的spark python 决策树实例
2017-07-11 python spark 随机森林入门demo
2017-07-11 python spark 决策树 入门demo
2017-07-11 spark 决策树分类算法demo