sparksql - 随笔分类 - jsqup

自定义聚合函数(统计每种行为的触发次数排名前三的商品id)

摘要：package SparkSQL.fun.project import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregate 阅读全文

posted @ 2022-09-05 21:23 jsqup 阅读(30) 评论(0) 推荐(0)

自定义聚合函数(统计每一个商品的四种行为出现次数)

摘要：要求：统计每一个商品的四种行为出现次数案例 package SparkSQL.fun.project import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffe 阅读全文

posted @ 2022-09-05 21:23 jsqup 阅读(54) 评论(0) 推荐(0)

自定义UDAF2(多进一出函数)

摘要：package SparkSQL.fun.registerfum import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggre 阅读全文

posted @ 2022-09-05 21:11 jsqup 阅读(46) 评论(0) 推荐(0)

自定义UDAF函数(多对一函数)

摘要：package SparkSQL.fun.registerfum import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggre 阅读全文

posted @ 2022-09-05 21:10 jsqup 阅读(69) 评论(0) 推荐(0)

自定义函数utf函数(1对1函数)

摘要：package SparkSQL.fun.registerfum import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, SparkSession} import scala.beans.BeanProperty 阅读全文

posted @ 2022-09-05 21:07 jsqup 阅读(56) 评论(0) 推荐(0)

开窗函数(javaAPI)

摘要：package SparkSQL.fun import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, SparkSession} object PartitionCode { def main(args: Array 阅读全文

posted @ 2022-09-05 21:06 jsqup 阅读(106) 评论(0) 推荐(0)

parse_url函数

摘要：参数 path:路径/login host:www.baidu.com query:username=zs protocol:http协议 package SparkSQL.fun import org.apache.spark.SparkConf import org.apache.spark.s 阅读全文

posted @ 2022-09-05 20:51 jsqup 阅读(127) 评论(0) 推荐(0)

explode炸裂函数

摘要：package SparkSQL.fun import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession /** * _1 _2 * zs 60-70-90 * ls 70-80-90 * 求zs和ls的总成绩平阅读全文

posted @ 2022-09-05 20:49 jsqup 阅读(193) 评论(0) 推荐(0)

Dataset与DataFrame创建的比较方式

摘要：||DataFrame|Dataset| | | | | |创建方式|**1.根据集合或者RDD的隐式函数toDF(列名)创建(需要引入SparkSession的隐式转换函数)2.SparkSession的createDataFrame函数3.外部结构化文件4.外部关系型数据库5.**Hive数据仓阅读全文

posted @ 2022-08-30 19:00 jsqup 阅读(44) 评论(0) 推荐(0)

dataset中的算子

摘要：与dataframe同阅读全文

posted @ 2022-08-30 15:29 jsqup 阅读(17) 评论(0) 推荐(0)

通过dataframe相关算子操作创建dataset

摘要：说明使用Dataframe相关算子进行转换的来都需要引入sparksession的隐式转换内容 map算子将原有的Dataset的每一行数据进行转换得到一个新的数据类型就是新的Dataset的类型 flatMap算子将原有的Dataset的每一行数据进行压扁操作得到一个集合数据类型集阅读全文

posted @ 2022-08-30 15:27 jsqup 阅读(85) 评论(0) 推荐(0)

通过外部存储文件创建Dataset, Dataset只支持纯文本文件

摘要：1. 注意 1. 通过外部存储文件创建Dataset，dataset只支持纯文本文件。 2. 虽然说Dataset不支持其他格式的结构化文件，但是可以把结构化文件创建成DataFrame，然后把DataFrame转换Dataset。 3. textFile算子创建出来的Dataset是一个字符串类型阅读全文

posted @ 2022-08-30 14:55 jsqup 阅读(60) 评论(0) 推荐(0)

通过createDataset创建Dataset数据集(Array,RDD,List)

摘要：说明定义：底层用到了函数的柯里化，需要传递两个值。第二个值是一个隐式参数，需要定义一个隐式变量给隐式参数传递值。隐式变量不需要我们定义在SparkSession中全部给我们定义好了。隐式变量是一个编码器Encoder变量我们只需要导入即可 import session.implicit 阅读全文

posted @ 2022-08-30 14:32 jsqup 阅读(591) 评论(0) 推荐(0)

通过toDS()方法创建Dataset

摘要：object CreateDatasetByToDs { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("demo01").setMaster("local[*]") val session 阅读全文

posted @ 2022-08-30 13:45 jsqup 阅读(60) 评论(0) 推荐(0)

DataFrame中的行动算子操作2

摘要：## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of 阅读全文

posted @ 2022-08-30 13:25 jsqup 阅读(48) 评论(0) 推荐(0)

DataFrame中的行动算子操作1

摘要：val conf = new SparkConf().setAppName("action").setMaster("local[*]") val session = SparkSession.builder().config(conf).getOrCreate() val seq: Seq[(St 阅读全文

posted @ 2022-08-30 12:20 jsqup 阅读(75) 评论(0) 推荐(0)

spark中各个技术点中的依赖(pom.xml)

摘要：mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文

posted @ 2022-08-30 08:23 jsqup 阅读(580) 评论(0) 推荐(0)

DataFrame与rdd之间的转换(val rdd1 = dataFrame.rdd)

摘要：核心语句val rdd1 = dataFrame.rdd package SparkSQL.DataFreamCreate.dataframetordd import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import 阅读全文

posted @ 2022-08-30 08:17 jsqup 阅读(193) 评论(0) 推荐(0)

DataFrame中的转换算子2

摘要：val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文

posted @ 2022-08-30 00:10 jsqup 阅读(53) 评论(0) 推荐(0)

DataFrame中的转换算子操作1

摘要：val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文

posted @ 2022-08-30 00:08 jsqup 阅读(55) 评论(0) 推荐(0)

jsqup

随笔分类 - sparksql

公告