随笔分类 -  日报

摘要:val conf = new SparkConf().setAppName("action").setMaster("local[*]") val session = SparkSession.builder().config(conf).getOrCreate() val seq: Seq[(St 阅读全文
posted @ 2022-08-30 12:20 jsqup 阅读(51) 评论(0) 推荐(0) 编辑
摘要:mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文
posted @ 2022-08-30 08:23 jsqup 阅读(509) 评论(0) 推荐(0) 编辑
摘要:核心语句val rdd1 = dataFrame.rdd package SparkSQL.DataFreamCreate.dataframetordd import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import 阅读全文
posted @ 2022-08-30 08:17 jsqup 阅读(177) 评论(0) 推荐(0) 编辑
摘要:val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文
posted @ 2022-08-30 00:10 jsqup 阅读(30) 评论(0) 推荐(0) 编辑
摘要:val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文
posted @ 2022-08-30 00:08 jsqup 阅读(37) 评论(0) 推荐(0) 编辑
摘要:SQL方式 需要将DataFrame注册成为一张临时表,并给临时表起名字,通过SQL语句查询分析DataFrame中数据 局部临时表、全局临时表 [注意]: --1 如果我们注册的是全局表,查询全局表的时候,必须在表名前加上一个数据库的名字global_temp val frame = sessio 阅读全文
posted @ 2022-08-29 20:50 jsqup 阅读(409) 评论(0) 推荐(0) 编辑
摘要:问题描述 一旦使用Spark SQL连接过Hive之后,无法使用Hive自带的命令行工具操作Hive了, 而且HiveServer2服务无法开启了,操作Hive报错:java.lang.RuntimeException: Unable to instantiate org.apache.hadoop 阅读全文
posted @ 2022-08-29 17:32 jsqup 阅读(115) 评论(0) 推荐(0) 编辑
摘要:默认情况下SparkSession不支持读取Hive中的数据,也不支持操作HQL语法, 如果要读取Hive中的数据,需要开启Hive的支持, 构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setM 阅读全文
posted @ 2022-08-27 12:21 jsqup 阅读(75) 评论(0) 推荐(0) 编辑
摘要:说明: /* 需要引入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.18</version> </dependency> */ 代码: objec 阅读全文
posted @ 2022-08-27 12:19 jsqup 阅读(16) 评论(0) 推荐(0) 编辑
摘要:options的多种模式 Option可选操作项 .option("mode", "FAILFAST") // 读取模式 读取模式的常用值有 permissive:当遇到损坏的记录时,将其所有字段设置为 null, dropMalformed:删除格式不正确的行 failFast:遇到格式不正确的数 阅读全文
posted @ 2022-08-27 12:17 jsqup 阅读(138) 评论(0) 推荐(0) 编辑
摘要:题目: /** * 统计每个省份的用户访问量,最终要求将不同省份用户访问量存放到不同的分区中 分区存放规则如下 * 省份是以包含 山 0 * 如果省份包含 海 1 * 其他省份 2 */ 代码: package sparkcorerddexample import org.apache.spark. 阅读全文
posted @ 2022-08-27 12:09 jsqup 阅读(88) 评论(0) 推荐(0) 编辑
摘要:题目描述: /** * 清洗完成的数据中包含一个用户的响应状态码,获取每一种状态码对应的访问量 * 1、读取清洗完成的数据成为RDD[String] * 2、可以把上一步得到的RDD通过map算子转换成一个键值对类型的RDD,以状态码为key 以不同用户的访问日志为value的数据 * 3、键值对类 阅读全文
posted @ 2022-08-27 11:20 jsqup 阅读(20) 评论(0) 推荐(0) 编辑
摘要:题目描述 /** * 用户的行为日志数据清洗过滤 * 网站的独立访客数:一个唯一的IP地址就是一个独立访客 * 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD * 2、RDD中重复的IP去重 * 3、RDD中的累加值 */ 案例 object A2DataAnaly { 阅读全文
posted @ 2022-08-26 23:02 jsqup 阅读(43) 评论(0) 推荐(0) 编辑
摘要:从集合中借助createDataFrame函数创建DataFrame createDataFrame(Seq[T]) 列名会自动生成 案例: val dataFrame: DataFrame = session.createDataFrame(Array( ("zs", 20, "男"), ("ls 阅读全文
posted @ 2022-08-26 12:04 jsqup 阅读(356) 评论(0) 推荐(0) 编辑
摘要:方式一:Scala集合创建DataFrame import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object CreateSparkSession { def main(ar 阅读全文
posted @ 2022-08-26 12:03 jsqup 阅读(318) 评论(0) 推荐(0) 编辑
摘要:创建项目方式和前面一样 pom依赖不一样 无需导入spark_core包,因为spark_sql中包含了spark_core pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or 阅读全文
posted @ 2022-08-26 11:14 jsqup 阅读(29) 评论(0) 推荐(0) 编辑
摘要:1. SparkSQL支持的数据源 Hive Scala内存中数据--集合 支持从RDD读取数据作SQL操作 支持从外部存储文件读取数据json,csv,普通结构文本文件 支持从关系型数据库读取数据处理(MySQL,SQL Server,Oracle) 2. SparkSQL入口 SQLContex 阅读全文
posted @ 2022-08-26 09:30 jsqup 阅读(20) 评论(0) 推荐(0) 编辑
摘要:RDD: 以Person为类型参数,但是Spark框架本身不了解Person类的内部结构。 DataFrame: DataFrame每一行的类型固定为Row, 每一列的值没法直接访问,只有通过解析才能获取各个字段的值。 DataSet: DataFrame也可以叫DataSet[Row],每一行类型 阅读全文
posted @ 2022-08-25 22:49 jsqup 阅读(158) 评论(0) 推荐(0) 编辑
摘要:![](https://img2022.cnblogs.com/blog/2487693/202208/2487693-20220825221328631-981642277.png) 阅读全文
posted @ 2022-08-25 22:14 jsqup 阅读(5) 评论(0) 推荐(0) 编辑
摘要:1. 创建RDD数据集 1. 从现有的Scala集合创建RDD数据集 parallelize(Seq, numSlices): 定义: Seq:Array或者List numSlices:代表创建的RDD的分区数,如果没传递,有一个默认值,默认分区就是spark.default.parallelis 阅读全文
posted @ 2022-08-25 18:40 jsqup 阅读(109) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示