随笔分类 - Pyspark
摘要:F.array() 是 PySpark 中的一个函数,用于将多个列组合成一个数组类型的列。F 通常是 pyspark.sql.functions 模块的简写方式,便于调用。 语法 pyspark.sql.functions.array(*cols) 参数 *cols: 需要组合成数组的多个列。这些列
阅读全文
摘要:F.regexp_replace 是 PySpark 中用于在 DataFrame 的列中执行正则表达式替换操作的函数。它可以用来匹配字符串中的某些模式,并用指定的字符串替换这些模式。 使用场景 清理数据中的特定字符或模式(如去除特殊字符、替换特定的子字符串)。 标准化数据格式(如替换日期格式、移除
阅读全文
摘要:1. Select Columns - Example `df = df.select( "customer_id", "customer_name" )` 2. Creating or Replacing a column - Example df = df.withColumn("always_
阅读全文