07 2024 档案

摘要:Hive 分区表 https://blog.csdn.net/weixin_41122339/article/details/81584110 表在存储时,可以将数据根据分区键的列值存储在表目录的子目录中。这样将数据切分到不同目录存储后,可以加快对分区键字段的查询和过滤速度,通过在查询条件中指定过滤 阅读全文
posted @ 2024-07-26 19:16 Stitches 阅读(49) 评论(0) 推荐(0) 编辑
摘要:Hive DDL 操作 操作前需要保证 hive 成功启动: # 启动 HiveServer2 hive --service hiveserver2 & # 启动 MetaStore hive --service metastore & # 进入 hive 命令行界面 beeline -u jdbc 阅读全文
posted @ 2024-07-26 19:15 Stitches 阅读(13) 评论(0) 推荐(0) 编辑
摘要:SparkStreaming sparkStreaming 用于处理流式数据,其中输入数据源包括 Kafka、Flume、HDFS 等;结果输出目的地址包括 HDFS、数据库。 SparkCore 对应 RDD;SparkSQL 对应 DataFrame/DataSet;SparkStreaming 阅读全文
posted @ 2024-07-26 14:51 Stitches 阅读(7) 评论(0) 推荐(0) 编辑
摘要:SparkSQL简介 为什么需要 SparkSQL? Spark 的 RDD有一定局限性,无法处理结构化数据(比如 json 格式等等); SparkSQL 提供了两种编程的抽象,DataFrame(关心数据结构不关心类型),DataSet(关心面向对象的数据); RDD、DataFrame、Dat 阅读全文
posted @ 2024-07-23 20:59 Stitches 阅读(11) 评论(0) 推荐(0) 编辑
摘要:hive简介 为什么产生 hive? MapReduce 提供了通用的分布式开发能力,但是是一个通用的计算引擎,对于一些特殊的数据处理效率较低。比如常见的结构化数据用 SQL 处理,但是数据达到某个量级后单机数据库无法承受,势必要转向大数据平台,而大数据平台有自己单独的计算引擎,所以之前所有使用 S 阅读全文
posted @ 2024-07-19 15:17 Stitches 阅读(9) 评论(0) 推荐(0) 编辑
摘要:任务执行流程 宏观执行流程 通过 bin/spark-submit -class [主类] --master [启动模式] --deploy-mode client WordCounter.jar ./input ./output 脚本启动任务; 启动 Driver,执行用户类的 main 方法,完 阅读全文
posted @ 2024-07-18 10:43 Stitches 阅读(6) 评论(0) 推荐(0) 编辑
摘要:运行案例程序 计算圆周率——Local Local 模式下,解压安装 spark 后,运行 example 包下的案例程序: bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples 阅读全文
posted @ 2024-07-15 00:16 Stitches 阅读(4) 评论(0) 推荐(0) 编辑
摘要:Transformation 转换算子 RDD 整体上分为 Value、双Value、Key-Value 三种类型。 Value 类型 Map算子 函数签名 def map[U:ClassTag](f:T=>U):RDD[U],它通过接受一个参数,并且遍历该 RDD 中每一个数据项,依次应用函数 f 阅读全文
posted @ 2024-07-15 00:16 Stitches 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Spark Spark 作为分布式计算框架,基于 MapReduce 框架开发,但是也有以下区别: Spark 基于 Scala 语言开发,MR 基于 Java 语言开发;Scala 是函数式编程语言,对于函数间相互调用效率更高;而 Java 是面向对象语言,函数间调用必须依赖于对象,效率低。 Ma 阅读全文
posted @ 2024-07-11 23:10 Stitches 阅读(35) 评论(0) 推荐(0) 编辑
摘要:Scala Scala特点: 和 Java 无缝整合,满足各自语法基础上调用 Java 库; 类型推断,类似于 Golang,Scala 通过 val 声明常量,通过 var 声明变量。 支持并行和分布式; 高阶函数编程,可以理解为面向对象编程,但是函数可以作为对象并当作参数传入。 数据类型 Nul 阅读全文
posted @ 2024-07-10 15:29 Stitches 阅读(66) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示