|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|RDD编程&输入输出|
一、输入与输出
### --- 文件输入与输出:文本文件
~~~ 数据读取:textFile(String)。可指定单个文件,支持通配符。
~~~ 这样对于大量的小文件读取效率并不高,
~~~ 应该使用 wholeTextFilesdef wholeTextFiles(path: String, minPartitions: Int = defaultMinPartitions):RDD[(String, String)])
~~~ 返回值RDD[(String, String)],其中Key是文件的名称,Value是文件的内容
~~~ 数据保存:saveAsTextFile(String)。指定的输出目录。
### --- csv文件
~~~ 读取 CSV(Comma-Separated Values)/TSV(Tab-Separated Values) 数据和读取 JSON 数据相似,
~~~ 都需要先把文件当作普通文本文件来读取数据,然后通过将每一行进行解析实现对CSV的读取。
~~~ CSV/TSV 数据的输出也是需要将结构化RDD通过相关的库转换成字符串RDD,
~~~ 然后使用 Spark 的文本文件 API 写出去。
### --- json文件
~~~ 如果 JSON 文件中每一行就是一个JSON记录,
~~~ 那么可以通过将JSON文件当做文本文件来读取,然后利用相关的JSON库对每一条数据进行JSON解析。
~~~ JSON数据的输出主要是通过在输出之前将由结构化数据组成的 RDD 转为字符串RDD,
~~~ 然后使用 Spark 的文本文件 API 写出去。
~~~ json文件的处理使用SparkSQL最为简洁。
### --- SequenceFile
~~~ SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。
~~~ Spark 有专门用来读取 SequenceFile 的接口。
~~~ 在 SparkContext中,可以调用:sequenceFile[keyClass, valueClass];
~~~ 调用 saveAsSequenceFile(path) 保存PairRDD,系统将键和值能够自动转为Writable类型。
### --- 对象文件
~~~ 对象文件是将对象序列化后保存的文件,采用Java的序列化机制。
~~~ 通过objectFile[k,v](path) 接收一个路径,读取对象文件,返回对应的 RDD,
~~~ 也可以通过调用saveAsObjectFile() 实现对对象文件的输出。因为是序列化所以要指定类型。
二、JDBC
### --- JDBC
~~~ 详见综合案例
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
分类:
bdv016-spark.v01
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通