添加新的一列
df = df.withColumn('col_name', F.lit(2))
new_col_name :是新的一列的名字
F.lit(2):是全部都为 2 的一列
按行合并两个datafeame(两个df必须要有相同的columns)
df_concat = df1.union(df2)
将一行展开为多行
#将score按照 ',' 分割,然后对分割后的数组每个元素都 explode 为一行 df.withColumn('score', F.explode(F.split(df.score, ','))).show()
根据条件设置列的值
import pyspark.sql.functions as F df = df.withColumn('col_name', F.when(df.num < 100, 0).otherwise(df.num)) #将num列中,值小于100的设置为0,大于100保持不变
使用自定义函数
def myfunc(val): return float(3.23) df = df.withColumn('col_name', F.udf(myfunc, returnType=DoubleType())('col_name')
分类:
hadoop
标签:
pyspark 常用函数
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
2020-07-28 《hadoop 集群搭建、spark安装、Hbase安装、Hive安装、Kafka安装》
2020-07-28 python 基本语法
2020-07-28 java基本语法