随笔分类 - Spark

Spark之RDD

摘要：--http://dblab.xmu.edu.cn/blog/1406/ 版本对照表;maven的配置运行示例: 此案例有两个参数输入文件位置输出文件位置 package dblab.WordCount import org.apache.spark.SparkContext import o 阅读全文

posted @ 2022-07-20 15:15 M_Fight๑҉ 阅读(26) 评论(0) 推荐(0) 编辑

Spark SQL 数据源 hive表

摘要：Spark SQL 数据源（json文件、hive表、parquet文件） -- json 详见 524 hive表 scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one depreca 阅读全文

posted @ 2022-06-24 16:51 M_Fight๑҉ 阅读(137) 评论(0) 推荐(0) 编辑

Spark SQL 数据源 parquet文件

摘要：scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, 阅读全文

posted @ 2022-06-24 16:51 M_Fight๑҉ 阅读(66) 评论(0) 推荐(0) 编辑

Spark SQL 数据源 json文件

摘要：1.启动命令 [root@cdh1 ~]# spark-shell 22/05/24 20:24:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builti 阅读全文

posted @ 2022-05-25 22:56 M_Fight๑҉ 阅读(43) 评论(0) 推荐(0) 编辑

Spark SQL 以编程方式指定模式

摘要：Spark SQL 以编程方式指定模式 scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc) warning: there was one deprecation warning (since 2.0.0); for deta 阅读全文

posted @ 2022-05-25 22:56 M_Fight๑҉ 阅读(72) 评论(0) 推荐(0) 编辑

公告

昵称： M_Fight๑҉
园龄： 4年1个月
粉丝： 0
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

M_Fight๑҉

随笔分类 - Spark

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜