随笔分类 - sparksql

DataFrame操作数据的两种方式(SQL和DSL)

摘要：SQL方式需要将DataFrame注册成为一张临时表，并给临时表起名字，通过SQL语句查询分析DataFrame中数据局部临时表、全局临时表 [注意]： --1 如果我们注册的是全局表，查询全局表的时候，必须在表名前加上一个数据库的名字global_temp val frame = sessio 阅读全文

posted @ 2022-08-29 20:50 jsqup 阅读(409) 评论(0) 推荐(0) 编辑

spark连接hive后的几个问题

摘要：问题描述一旦使用Spark SQL连接过Hive之后，无法使用Hive自带的命令行工具操作Hive了，而且HiveServer2服务无法开启了，操作Hive报错：java.lang.RuntimeException: Unable to instantiate org.apache.hadoop 阅读全文

posted @ 2022-08-29 17:32 jsqup 阅读(115) 评论(0) 推荐(0) 编辑

从Hive中使用HQL语句创建DataFrame--常用方式

摘要：默认情况下SparkSession不支持读取Hive中的数据，也不支持操作HQL语法，如果要读取Hive中的数据，需要开启Hive的支持，构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setM 阅读全文

posted @ 2022-08-27 12:21 jsqup 阅读(75) 评论(0) 推荐(0) 编辑

从关系型数据库中创建DataFrame

摘要：说明： /* 需要引入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.18</version> </dependency> */ 代码： objec 阅读全文

posted @ 2022-08-27 12:19 jsqup 阅读(16) 评论(0) 推荐(0) 编辑

从外部存储的结构化文件创建DataFrame(options的多种模式)---常用的一种方式

摘要：options的多种模式 Option可选操作项 .option("mode", "FAILFAST") // 读取模式读取模式的常用值有 permissive：当遇到损坏的记录时，将其所有字段设置为 null， dropMalformed：删除格式不正确的行 failFast：遇到格式不正确的数阅读全文

posted @ 2022-08-27 12:17 jsqup 阅读(138) 评论(0) 推荐(0) 编辑

spark core案例二：清洗过滤

摘要：题目描述 /** * 用户的行为日志数据清洗过滤 * 网站的独立访客数：一个唯一的IP地址就是一个独立访客 * 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD * 2、RDD中重复的IP去重 * 3、RDD中的累加值 */ 案例 object A2DataAnaly { 阅读全文

posted @ 2022-08-26 23:02 jsqup 阅读(43) 评论(0) 推荐(0) 编辑

通过createDataFrame方法创建DataFrame对象

摘要：从集合中借助createDataFrame函数创建DataFrame createDataFrame(Seq[T]) 列名会自动生成案例： val dataFrame: DataFrame = session.createDataFrame(Array( ("zs", 20, "男"), ("ls 阅读全文

posted @ 2022-08-26 12:04 jsqup 阅读(356) 评论(0) 推荐(0) 编辑

通过隐式转换创建toDF函数来创建DataFrame对象

摘要：方式一：Scala集合创建DataFrame import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} object CreateSparkSession { def main(ar 阅读全文

posted @ 2022-08-26 12:03 jsqup 阅读(318) 评论(0) 推荐(0) 编辑

创建SparkSQL的项目

摘要：创建项目方式和前面一样 pom依赖不一样无需导入spark_core包，因为spark_sql中包含了spark_core pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or 阅读全文

posted @ 2022-08-26 11:14 jsqup 阅读(29) 评论(0) 推荐(0) 编辑

SparkSQL概述

摘要：1. SparkSQL支持的数据源 Hive Scala内存中数据--集合支持从RDD读取数据作SQL操作支持从外部存储文件读取数据json，csv，普通结构文本文件支持从关系型数据库读取数据处理（MySQL，SQL Server，Oracle） 2. SparkSQL入口 SQLContex 阅读全文

posted @ 2022-08-26 09:30 jsqup 阅读(20) 评论(0) 推荐(0) 编辑

RDD，DataFrame，DataSet及三者之间的转换

摘要：RDD: 以Person为类型参数，但是Spark框架本身不了解Person类的内部结构。 DataFrame: DataFrame每一行的类型固定为Row, 每一列的值没法直接访问，只有通过解析才能获取各个字段的值。 DataSet: DataFrame也可以叫DataSet[Row]，每一行类型阅读全文

posted @ 2022-08-25 22:49 jsqup 阅读(158) 评论(0) 推荐(0) 编辑

访问端口总结

摘要：||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作；50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口；50075(datanode的web访问端口)| |||snn(50090 snn的阅读全文

posted @ 2022-08-19 12:06 jsqup 阅读(52) 评论(0) 推荐(0) 编辑