随笔分类 - Spark
摘要:--http://dblab.xmu.edu.cn/blog/1406/ 版本对照表;maven的配置 运行示例: 此案例有两个参数 输入文件位置 输出文件位置 package dblab.WordCount import org.apache.spark.SparkContext import o
阅读全文
摘要:Spark SQL 数据源(json文件、hive表、parquet文件) -- json 详见 524 hive表 scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one depreca
阅读全文
摘要:scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string,
阅读全文
摘要:1.启动命令 [root@cdh1 ~]# spark-shell 22/05/24 20:24:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builti
阅读全文
摘要:Spark SQL 以编程方式指定模式 scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc) warning: there was one deprecation warning (since 2.0.0); for deta
阅读全文