2022 年 8月 27 日随笔档案 - jsqup

2022年8月27日

摘要：默认情况下SparkSession不支持读取Hive中的数据，也不支持操作HQL语法，如果要读取Hive中的数据，需要开启Hive的支持，构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setM 阅读全文

posted @ 2022-08-27 12:21 jsqup 阅读(65) 评论(0) 推荐(0) 编辑

从关系型数据库中创建DataFrame

摘要：说明： /* 需要引入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.18</version> </dependency> */ 代码： objec 阅读全文

posted @ 2022-08-27 12:19 jsqup 阅读(14) 评论(0) 推荐(0) 编辑

从外部存储的结构化文件创建DataFrame(options的多种模式)---常用的一种方式

摘要： options的多种模式 Option可选操作项 .option("mode", "FAILFAST") // 读取模式读取模式的常用值有 permissive：当遇到损坏的记录时，将其所有字段设置为 null， dropMalformed：删除格式不正确的行 failFast：遇到格式不正确的数阅读全文

posted @ 2022-08-27 12:17 jsqup 阅读(134) 评论(0) 推荐(0) 编辑

sparkcore案例四：统计每个省份的用户访问量

摘要：题目： /** * 统计每个省份的用户访问量，最终要求将不同省份用户访问量存放到不同的分区中分区存放规则如下 * 省份是以包含山 0 * 如果省份包含海 1 * 其他省份 2 */ 代码： package sparkcorerddexample import org.apache.spark. 阅读全文

posted @ 2022-08-27 12:09 jsqup 阅读(76) 评论(0) 推荐(0) 编辑

sparkcore案例三：获取每一种状态码对应的访问量

摘要：题目描述： /** * 清洗完成的数据中包含一个用户的响应状态码，获取每一种状态码对应的访问量 * 1、读取清洗完成的数据成为RDD[String] * 2、可以把上一步得到的RDD通过map算子转换成一个键值对类型的RDD，以状态码为key 以不同用户的访问日志为value的数据 * 3、键值对类阅读全文

posted @ 2022-08-27 11:20 jsqup 阅读(18) 评论(0) 推荐(0) 编辑

jsqup

公告