pyspark中对列重命名
1、方式一:通过withColumnRename函数对列一对一重命名
data = sqlContext.createDataFrame([(1,2), (3,4)], ['x1', 'x2']) data = data.withColumnRenamed('x1','x3').withColumnRenamed('x2', 'x4')
2、方式二:使用toDF对所有列重命名
data.toDF('x3', 'x4')
3、方式三:使用select重命名
from pyspark.sql.functions import col
data.select(col('x1').alias('x3'))
// 对多列重命名
mapping = dict(zip(['x1', 'x2'], ['x3', 'x4']))
data.select([col(c).alias(mapping.get(c, c)) for c in data.columns])