随笔分类 -  Spark

摘要:--http://dblab.xmu.edu.cn/blog/1406/ 版本对照表;maven的配置 运行示例: 此案例有两个参数 输入文件位置 输出文件位置 package dblab.WordCount import org.apache.spark.SparkContext import o 阅读全文
posted @ 2022-07-20 15:15 M_Fight๑҉ 阅读(26) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 数据源(json文件、hive表、parquet文件) -- json 详见 524 hive表 scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one depreca 阅读全文
posted @ 2022-06-24 16:51 M_Fight๑҉ 阅读(137) 评论(0) 推荐(0) 编辑
摘要:scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, 阅读全文
posted @ 2022-06-24 16:51 M_Fight๑҉ 阅读(66) 评论(0) 推荐(0) 编辑
摘要:1.启动命令 [root@cdh1 ~]# spark-shell 22/05/24 20:24:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builti 阅读全文
posted @ 2022-05-25 22:56 M_Fight๑҉ 阅读(43) 评论(0) 推荐(0) 编辑
摘要:Spark SQL 以编程方式指定模式 scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc) warning: there was one deprecation warning (since 2.0.0); for deta 阅读全文
posted @ 2022-05-25 22:56 M_Fight๑҉ 阅读(72) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示