随笔分类 - sparksql
摘要:package SparkSQL.fun.project import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregate
阅读全文
摘要:要求:统计每一个商品的四种行为出现次数 案例 package SparkSQL.fun.project import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffe
阅读全文
摘要:package SparkSQL.fun.registerfum import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggre
阅读全文
摘要:package SparkSQL.fun.registerfum import org.apache.spark.SparkConf import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggre
阅读全文
摘要:package SparkSQL.fun.registerfum import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, SparkSession} import scala.beans.BeanProperty
阅读全文
摘要:package SparkSQL.fun import org.apache.spark.SparkConf import org.apache.spark.sql.{Dataset, SparkSession} object PartitionCode { def main(args: Array
阅读全文
摘要:参数 path:路径/login host:www.baidu.com query:username=zs protocol:http协议 package SparkSQL.fun import org.apache.spark.SparkConf import org.apache.spark.s
阅读全文
摘要:package SparkSQL.fun import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession /** * _1 _2 * zs 60-70-90 * ls 70-80-90 * 求zs和ls的总成绩 平
阅读全文
摘要:||DataFrame|Dataset| | | | | |创建方式|**1.根据集合或者RDD的隐式函数toDF(列名)创建(需要引入SparkSession的隐式转换函数)2.SparkSession的createDataFrame函数3.外部结构化文件4.外部关系型数据库5.**Hive数据仓
阅读全文
摘要:说明 使用Dataframe相关算子进行转换的来 都需要引入sparksession的隐式转换内容 map算子 将原有的Dataset的每一行数据进行转换 得到一个新的数据类型 就是新的Dataset的类型 flatMap算子 将原有的Dataset的每一行数据进行压扁操作 得到一个集合数据类型 集
阅读全文
摘要:1. 注意 1. 通过外部存储文件创建Dataset,dataset只支持纯文本文件。 2. 虽然说Dataset不支持其他格式的结构化文件,但是可以把结构化文件创建成DataFrame,然后把DataFrame转换Dataset。 3. textFile算子创建出来的Dataset是一个字符串类型
阅读全文
摘要:说明 定义: 底层用到了函数的柯里化,需要传递两个值。 第二个值是一个隐式参数,需要定义一个隐式变量给隐式参数传递值。 隐式变量不需要我们定义 在SparkSession中全部给我们定义好了。 隐式变量是一个编码器Encoder变量 我们只需要导入即可 import session.implicit
阅读全文
摘要:object CreateDatasetByToDs { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("demo01").setMaster("local[*]") val session
阅读全文
摘要:## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of
阅读全文
摘要:val conf = new SparkConf().setAppName("action").setMaster("local[*]") val session = SparkSession.builder().config(conf).getOrCreate() val seq: Seq[(St
阅读全文
摘要:mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa
阅读全文
摘要:核心语句val rdd1 = dataFrame.rdd package SparkSQL.DataFreamCreate.dataframetordd import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import
阅读全文
摘要:val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val
阅读全文
摘要:val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val
阅读全文