上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 33 下一页
摘要: 1. 注意 1. 通过外部存储文件创建Dataset,dataset只支持纯文本文件。 2. 虽然说Dataset不支持其他格式的结构化文件,但是可以把结构化文件创建成DataFrame,然后把DataFrame转换Dataset。 3. textFile算子创建出来的Dataset是一个字符串类型 阅读全文
posted @ 2022-08-30 14:55 jsqup 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 说明 定义: 底层用到了函数的柯里化,需要传递两个值。 第二个值是一个隐式参数,需要定义一个隐式变量给隐式参数传递值。 隐式变量不需要我们定义 在SparkSession中全部给我们定义好了。 隐式变量是一个编码器Encoder变量 我们只需要导入即可 import session.implicit 阅读全文
posted @ 2022-08-30 14:32 jsqup 阅读(423) 评论(0) 推荐(0) 编辑
摘要: object CreateDatasetByToDs { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("demo01").setMaster("local[*]") val session 阅读全文
posted @ 2022-08-30 13:45 jsqup 阅读(36) 评论(0) 推荐(0) 编辑
摘要: ## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of 阅读全文
posted @ 2022-08-30 13:25 jsqup 阅读(29) 评论(0) 推荐(0) 编辑
摘要: val conf = new SparkConf().setAppName("action").setMaster("local[*]") val session = SparkSession.builder().config(conf).getOrCreate() val seq: Seq[(St 阅读全文
posted @ 2022-08-30 12:20 jsqup 阅读(47) 评论(0) 推荐(0) 编辑
摘要: mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文
posted @ 2022-08-30 08:23 jsqup 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 核心语句val rdd1 = dataFrame.rdd package SparkSQL.DataFreamCreate.dataframetordd import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import 阅读全文
posted @ 2022-08-30 08:17 jsqup 阅读(172) 评论(0) 推荐(0) 编辑
摘要: val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文
posted @ 2022-08-30 00:10 jsqup 阅读(26) 评论(0) 推荐(0) 编辑
摘要: val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文
posted @ 2022-08-30 00:08 jsqup 阅读(32) 评论(0) 推荐(0) 编辑
摘要: SQL方式 需要将DataFrame注册成为一张临时表,并给临时表起名字,通过SQL语句查询分析DataFrame中数据 局部临时表、全局临时表 [注意]: --1 如果我们注册的是全局表,查询全局表的时候,必须在表名前加上一个数据库的名字global_temp val frame = sessio 阅读全文
posted @ 2022-08-29 20:50 jsqup 阅读(352) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 33 下一页