pyspark toPandas的妙用
toPandas()
笔者这几天在写hive查数,需要把数据拉到本地,无奈文本数据太长,excel存储受到了限制,csv分隔符乱的一批,总之我乱的一批。
此时直接跳过直接下载的格式自己写,反倒没有了这么多的事情,因此,笔者发现了从分布式爬取到本地的topandas()拯救了笔者的凌乱~
直接从数据库中取数,write.csv,这种方式存在的问题是找不到文件的路径,需要先做topandas转。
def get_t1():
sql = """
SELECT * FROM tt.a
"""
return sql
df1=spark.sql(get_data_t1())
data1=df1.toPandas()
然后就可以在data1上使用pandas的各种函数啦~
但是注意:由于内存限制拉取的数据不宜过多,否则会报错。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步