|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|sparkcore|RDD编程&输入输出|

一、输入与输出
### --- 文件输入与输出:文本文件

~~~     数据读取:textFile(String)。可指定单个文件,支持通配符。
~~~     这样对于大量的小文件读取效率并不高,
~~~     应该使用 wholeTextFilesdef wholeTextFiles(path: String, minPartitions: Int = defaultMinPartitions):RDD[(String, String)])
~~~     返回值RDD[(String, String)],其中Key是文件的名称,Value是文件的内容
~~~     数据保存:saveAsTextFile(String)。指定的输出目录。
### --- csv文件

~~~     读取 CSV(Comma-Separated Values)/TSV(Tab-Separated Values) 数据和读取 JSON 数据相似,
~~~     都需要先把文件当作普通文本文件来读取数据,然后通过将每一行进行解析实现对CSV的读取。
~~~     CSV/TSV 数据的输出也是需要将结构化RDD通过相关的库转换成字符串RDD,
~~~     然后使用 Spark 的文本文件 API 写出去。
### --- json文件

~~~     如果 JSON 文件中每一行就是一个JSON记录,
~~~     那么可以通过将JSON文件当做文本文件来读取,然后利用相关的JSON库对每一条数据进行JSON解析。
~~~     JSON数据的输出主要是通过在输出之前将由结构化数据组成的 RDD 转为字符串RDD,
~~~     然后使用 Spark 的文本文件 API 写出去。
~~~     json文件的处理使用SparkSQL最为简洁。
### --- SequenceFile

~~~     SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。 
~~~     Spark 有专门用来读取 SequenceFile 的接口。
~~~     在 SparkContext中,可以调用:sequenceFile[keyClass, valueClass];
~~~     调用 saveAsSequenceFile(path) 保存PairRDD,系统将键和值能够自动转为Writable类型。
### --- 对象文件

~~~     对象文件是将对象序列化后保存的文件,采用Java的序列化机制。
~~~     通过objectFile[k,v](path) 接收一个路径,读取对象文件,返回对应的 RDD,
~~~     也可以通过调用saveAsObjectFile() 实现对对象文件的输出。因为是序列化所以要指定类型。
二、JDBC
### --- JDBC

~~~     详见综合案例

 
 
 
 
 
 
 
 
 

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
                                                                                                                                                   ——W.S.Landor

 

 

posted on   yanqi_vip  阅读(22)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示