pyspark学习
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 | from pyspark import * from pyspark.sql import SparkSession from pyspark.sql import functions as f import json import os from pyspark.sql.types import StructType, IntegerType, StringType # os.environ['HADOOP_CONF_DIR'] = '/export/server/hadoop-3.3.0/etc/hadoop' if __name__ = = '__main__' : #pyspark编程入口,创建buIlder,创建SparkSession实例对象 spark = SparkSession.builder. \ appName( "test" ). \ master( "local[*]" ). \ getOrCreate() #可以使用rdd转化为dataframe格式(表格式) sc = spark.sparkContext #schema为表的格式,即表的属性设置,第一个参数为属性名称,第二个参数为属性的类型,第三个参数表示是否为空,TRUE默认可以为为空,使用add()函数添加属性 schema = StructType().add( "user_id" , StringType(), nullable = True ). \ add( "movie_id" , IntegerType(), nullable = True ). \ add( "rank" , IntegerType(), nullable = True ). \ add( "ts" , StringType(), nullable = True ) #也可以使用read的api创建dataframe,其中option为参数设置(按照什么分割,是否有标题,编码等等),load为路径(可以是本地的路径,也可以是hdfs) df = spark.read. format ( "csv" ). \ option( "sep" , "\t" ). \ option( "header" , False ). \ option( "encoding" , "utf-8" ). \ schema(schema = schema). \ load( "../data/input/sql/u.data" ) #TODO 求每个人的平均分降序平排列 #api风格 #withColumnRenamed对一列改名 #withColumn对一列进行操作,例如设置精度等等 df.groupBy( "user_id" ). \ avg( "rank" ). \ withColumnRenamed( "avg(rank)" , "avg_rank" ). \ withColumn( "avg_rank" , f. round ( "avg_rank" , 2 )). \ orderBy( "avg_rank" , ascending = False ). \ show() # TODO 求每个人的平均分,最高分,最低分 #当有多个聚合函数的时候使用agg()里面,可以使用function的api来对dataframe进行操作 df.groupBy( "user_id" ). \ agg( f. round (f.avg( "rank" ), 2 ).alias( "avg_rank" ) ).show() user_id = df.where( "rank>3" ). \ groupBy( "user_id" ). \ count(). \ withColumnRenamed( "count" , "cnt" ). \ orderBy( "cnt" , asending = False ). \ limit( 1 ).first()[ "user_id" ] print (user_id) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人