随笔分类 -  Pyspark

摘要:F.array() 是 PySpark 中的一个函数,用于将多个列组合成一个数组类型的列。F 通常是 pyspark.sql.functions 模块的简写方式,便于调用。 语法 pyspark.sql.functions.array(*cols) 参数 *cols: 需要组合成数组的多个列。这些列 阅读全文
posted @ 2024-08-20 11:26 Jasmine_Lee 阅读(38) 评论(0) 推荐(0) 编辑
摘要:F.regexp_replace 是 PySpark 中用于在 DataFrame 的列中执行正则表达式替换操作的函数。它可以用来匹配字符串中的某些模式,并用指定的字符串替换这些模式。 使用场景 清理数据中的特定字符或模式(如去除特殊字符、替换特定的子字符串)。 标准化数据格式(如替换日期格式、移除 阅读全文
posted @ 2024-08-15 10:50 Jasmine_Lee 阅读(41) 评论(0) 推荐(0) 编辑
摘要:1. Select Columns - Example `df = df.select( "customer_id", "customer_name" )` 2. Creating or Replacing a column - Example df = df.withColumn("always_ 阅读全文
posted @ 2024-05-31 13:29 Jasmine_Lee 阅读(40) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示