会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
守护式等待
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2020年8月20日
Spark 常用的读取数据api
摘要: Spark读取数据API spark.read.format("json").load(path) spark.read.format("text").load(path) spark.read.format("parquet").load(path) spark.read.format("json
阅读全文
posted @ 2020-08-20 13:37 守护式等待
阅读(2736)
评论(0)
推荐(0)
编辑
Spark DataFrame常用API
摘要: Spark DataFrame常用API package com.imooc.bigdata.chapter04 import org.apache.spark.sql.{DataFrame, SparkSession} object DataFrameAPIApp { def main(args:
阅读全文
posted @ 2020-08-20 11:02 守护式等待
阅读(728)
评论(0)
推荐(0)
编辑
spark 词频统计
摘要: spark 词频统计 package com.imooc.bigdata.chapter02 import org.apache.spark.{SparkConf, SparkContext} /** * 词频统计案例 * 输入:文件 * 需求:统计出文件中每个单词出现的次数 * 1)读每一行数据
阅读全文
posted @ 2020-08-20 11:00 守护式等待
阅读(443)
评论(0)
推荐(0)
编辑
spark-shell和spark-sql
摘要: 1.启动spark-shell ./spark-shell --master local[2] --jars /usr/local/jar/mysql-connector-java-5.1.47.jar maste:制定运行模式 local[2]:local本地模式 [2]:2个CUP来运行spar
阅读全文
posted @ 2020-08-20 10:58 守护式等待
阅读(666)
评论(0)
推荐(0)
编辑
Spark中 RDD、DF、DS的区别与联系
摘要: RDD.DataFrame.DataSet的区别和联系 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL
阅读全文
posted @ 2020-08-20 10:53 守护式等待
阅读(3049)
评论(0)
推荐(0)
编辑
SparkSQL连接Hive
摘要: 1.将$HIVE_HOME/conf/hive-site.xml文件复制一份到$SPARK_HOME/conf/hive-site.xml cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf 2.直接启动spark-shell就能帮我们自动连接 ./s
阅读全文
posted @ 2020-08-20 09:44 守护式等待
阅读(669)
评论(0)
推荐(0)
编辑
spark安装 centos7
摘要: 1.安装前准备 安装scala https://www.cnblogs.com/yoyo1216/p/13365935.html 安装java https://www.cnblogs.com/yoyo1216/p/12668926.html mkdir -p /usr/local/spark/dat
阅读全文
posted @ 2020-08-20 09:29 守护式等待
阅读(215)
评论(0)
推荐(0)
编辑