spark scala读取csv文件
将以下内容保存为small_zipcode.csv
id,zipcode,type,city,state,population 1,704,STANDARD,,PR,30100 2,704,,PASEO COSTA DEL SUR,PR, 3,709,,BDA SAN LUIS,PR,3700 4,76166,UNIQUE,CINGULAR WIRELESS,TX,84000 5,76177,STANDARD,,TX, ,,,,, 7,76179,STANDARD,,TX,
打开spark-shell交互式命令行
val filePath="small_zipcode.csv" val df=spark.read.options( Map("inferSchema"->"true","delimiter"->",","header"->"true")).csv(filePath) scala> df.show +----+-------+--------+-------------------+-----+----------+ | id|zipcode| type| city|state|population| +----+-------+--------+-------------------+-----+----------+ | 1| 704|STANDARD| null| PR| 30100| | 2| 704| null|PASEO COSTA DEL SUR| PR| null| | 3| 709| null| BDA SAN LUIS| PR| 3700| | 4| 76166| UNIQUE| CINGULAR WIRELESS| TX| 84000| | 5| 76177|STANDARD| null| TX| null| |null| null| null| null| null| null| | 7| 76179|STANDARD| null| TX| null| +----+-------+--------+-------------------+-----+----------+ scala> df.na.drop("all").show() +---+-------+--------+-------------------+-----+----------+ | id|zipcode| type| city|state|population| +---+-------+--------+-------------------+-----+----------+ | 1| 704|STANDARD| null| PR| 30100| | 2| 704| null|PASEO COSTA DEL SUR| PR| null| | 3| 709| null| BDA SAN LUIS| PR| 3700| | 4| 76166| UNIQUE| CINGULAR WIRELESS| TX| 84000| | 5| 76177|STANDARD| null| TX| null| | 7| 76179|STANDARD| null| TX| null| +---+-------+--------+-------------------+-----+----------+ scala> df.na.drop().show() +---+-------+------+-----------------+-----+----------+ | id|zipcode| type| city|state|population| +---+-------+------+-----------------+-----+----------+ | 4| 76166|UNIQUE|CINGULAR WIRELESS| TX| 84000| +---+-------+------+-----------------+-----+----------+
参考: N多spark使用示例:https://sparkbyexamples.com/spark/spark-dataframe-drop-rows-with-null-values/
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)