pyspark toPandas的妙用

toPandas()

笔者这几天在写hive查数，需要把数据拉到本地，无奈文本数据太长，excel存储受到了限制，csv分隔符乱的一批，总之我乱的一批。

此时直接跳过直接下载的格式自己写，反倒没有了这么多的事情，因此，笔者发现了从分布式爬取到本地的topandas()拯救了笔者的凌乱~

直接从数据库中取数，write.csv,这种方式存在的问题是找不到文件的路径，需要先做topandas转。

def get_t1():
    sql = """
           SELECT * FROM tt.a
            """
    return sql
df1=spark.sql(get_data_t1())


data1=df1.toPandas()

然后就可以在data1上使用pandas的各种函数啦～

但是注意：由于内存限制拉取的数据不宜过多，否则会报错。

posted @ 2021-01-19 20:56 高文星星阅读(4734) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

昵称：高文星星
园龄： 6年10个月
粉丝： 125
关注： 29

2025年2月

日

一

二

三

四

五

六