大三寒假学习进度笔记7

今日开始学习DataFrame的创建

复制代码

# coding:utf8

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd

if __name__ == '__main__':
    spark = SparkSession.builder. \
        appName("test"). \
        master("local[*]"). \
        getOrCreate()

    sc = spark.sparkContext

    rdd = sc.textFile("../data/input/people.txt"). \
        map(lambda x: x.split(",")). \
        map(lambda x: (x[0], int(x[1])))

    # 通过rdd方式创建dataFrame
    # 参数1，被转换的rdd，参数2，指定类名
    df = spark.createDataFrame(rdd, schema=['name', 'age'])

    df.printSchema()

    # 参数1，展示出多少条数据，默认20。参数2，是否对列进行截断
    df.show(20, False)

    # 构建表结构的描述对象：StructType对象
    schema = StructType().add("name", StringType(), nullable=True). \
        add("age", IntegerType(), nullable=False)

    # 基于StructType对象去构建RDD到DF的转换
    spark.createDataFrame(rdd, schema=schema)

    # toDF方式
    rdd.toDF(["name", "age"])
    rdd.toDF(schema=schema)

    # 基于pandas的DataFrame构建
    pdf = pd.DataFrame(
        {
            "id": [1, 2, 3],
            "name": ["张", "王", "李"],
            "age": [11, 21, 13]
        }
    )
    df = spark.createDataFrame(pdf)

复制代码

posted @ 2024-01-16 22:15 wrf12 阅读(2) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 大三寒假学习进度笔记9

· 大三寒假学习进度笔记11

· 寒假生活指导25

· 1/26 学习进度笔记

· 1.30总结

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！

公告

昵称： wrf12
园龄： 2年8个月
粉丝： 2
关注： 2

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

1. 对夸克的看法(1)

推荐排行榜

1. 3月5日软件工程日报(1)

最新评论

1. Re:对夸克的看法
夸克浏览器是一款以轻、快为核心，设计风格简约，专注用户浏览体验的信息获取工具。它致力于用极简思路对抗信息冗余，满足用户对于浏览器最本质的需求。启动时无任何多余加载项，瞬间启动无需等待。赶紧去夸克浏览器...
--chrome官网站