随笔分类 -  大数据

摘要:1. Akka 概述 Akka 是 Java 虚拟机 JVM 平台上构建高并发、分布式和容错应用的工具包和运行时,你可以理解成 Akka 是编写并发程序的框架。Akka 用 Scala 语言写成,同时提供了Scala 和 Java 的开发接口。 Akka 基于 Actor 模型,它提供了一种轻量级的 阅读全文
posted @ 2024-01-11 09:47 tree6x7 阅读(49) 评论(0) 推荐(0) 编辑
摘要:1. 偏函数 1.1 案例引入 给你一个集合 List(1, 2, 3, 4, "abc"),请完成如下要求: 将集合中的所有数字 +1,并返回一个新的集合; 要求忽略掉非数字的元素,即返回的新的集合形式为 (2, 3, 4, 5)。 object PrePartialFuncTest { def 阅读全文
posted @ 2024-01-11 09:44 tree6x7 阅读(33) 评论(0) 推荐(0) 编辑
摘要:1. 模式匹配 Scala 中的模式匹配类似于 Java 中的 switch 语法,但是更加强大。 模式匹配包含一系列以 case 关键字打头的可选分支(alternative)。每一个可选分支都包括一个模式(pattern)以及一个或多个表达式,如果模式匹配了,这些表达式就会被求值。箭头符 => 阅读全文
posted @ 2024-01-11 09:37 tree6x7 阅读(142) 评论(0) 推荐(0) 编辑
摘要:1. 基本介绍 1.1 集合分类 Scala 中的集合分为两种,一种是可变的集合,另一种是不可变的集合。 可变的集合可以在原集合上进行添加、更新及删除元素。 不可变集合一旦被创建便不能被改变,添加、更新及删除操作返回的是新的集合,老集合保持不变。 在 Scala 中,默认使用的都是 immutabl 阅读全文
posted @ 2024-01-11 09:30 tree6x7 阅读(52) 评论(0) 推荐(0) 编辑
摘要:1. 面向对象编程基础 1.1 定义类 基本语法: [修饰符] class 类名 { // code } Scala 语法中,类并不声明为 public,所有这些类都具有公有可见性(即默认就是 public) 一个 Scala 源文件可以包含多个类 1.2 成员变量 属性的定义语法同变量: [访问修 阅读全文
posted @ 2024-01-11 09:23 tree6x7 阅读(53) 评论(0) 推荐(0) 编辑
摘要:1. Scala 概述 Martin Odersky 于 2001 年开始设计 Scala。Scala 是将「面向对象」和「函数式编程」结合的一种简洁的高级语言。 1.1 语言特点 Scala 是一门以 Java 虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语 阅读全文
posted @ 2024-01-08 14:43 tree6x7 阅读(121) 评论(0) 推荐(0) 编辑
摘要:# 1. DataX 概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(Mysql、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。 DataX 侧重于同步数据库中的数据。DataX 没有所谓版 阅读全文
posted @ 2023-08-07 23:41 tree6x7 阅读(149) 评论(0) 推荐(0) 编辑
摘要:官网地址:http://maxwells-daemon.io/ Maxwell 是由美国 Zendesk 公司开源,使用 Java 编写的 MySQL 变更数据抓取软件。它会实时监控 Mysql 数据库的数据变更操作(包括 insert、update、delete),并将变更数据以 JSON 的格式 阅读全文
posted @ 2023-08-07 23:37 tree6x7 阅读(144) 评论(0) 推荐(0) 编辑
摘要:# 1. 概述&入门 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume 基于流式架构,灵活简单。其最主要的作用就是实时读取服务器本地磁盘的数据,将数据写入到 HDFS。 ![](https://img2023.cnblogs.com 阅读全文
posted @ 2023-08-01 21:17 tree6x7 阅读(85) 评论(0) 推荐(0) 编辑
摘要:# 1. 分组聚合优化 ## 1.1 优化说明 Hive 中未经优化的分组聚合,是通过一个 MapReduce Job 实现的。Map 端负责读取数据,并按照分组字段分区,通过 Shuffle,将数据发往 Reduce 端,各组数据在 Reduce 端完成最终的聚合运算。 Hive 对分组聚合的优化 阅读全文
posted @ 2023-07-30 00:04 tree6x7 阅读(435) 评论(0) 推荐(0) 编辑
摘要:# 1. Hive 表设计优化 ## 1.1 分区表 ### a. 基本查询原理 Hive 的设计思想是通过元数据将 HDFS 上的文件映射成表,基本的查询原理是当用户通过 HQL 语句对 Hive 中的表进行复杂数据处理和计算时,默认将其转换为分布式计算 MapReduce 程序对 HDFS 中的 阅读全文
posted @ 2023-07-29 23:52 tree6x7 阅读(147) 评论(0) 推荐(0) 编辑
摘要:1. 多字节分隔符 1.1 问题与需求 【默认规则】Hive 默认序列化类是 LazySimpleSerDe,其只支持使用单字节分隔符(char)来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为”\001”。根据不同文件的不同分隔符,我们可以通过在创建表时使用 ROW FORMAT DEL 阅读全文
posted @ 2023-07-29 23:44 tree6x7 阅读(69) 评论(0) 推荐(0) 编辑
摘要:1. Hive 内置运算符 整体上,Hive 支持的运算符可以分为三大类:关系运算、算术运算、逻辑运算。 官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 也可以使用下述方式查看运算符的使用方式: - 阅读全文
posted @ 2023-07-29 23:30 tree6x7 阅读(556) 评论(0) 推荐(0) 编辑
摘要:1. LOAD 回想一下,当在 Hive 中创建好表之后,默认就会在 HDFS 上创建一个与之对应的文件夹,默认路径是由参数 hive.metastore.warehouse.dir 控制,默认值是 /user/hive/warehouse。 要想让 Hive 的表和结构化的数据文件产生映射,就需要 阅读全文
posted @ 2023-07-29 23:19 tree6x7 阅读(88) 评论(0) 推荐(0) 编辑
摘要:数据定义语言(Data Definition Language,DDL)是 SQL 语言集中对数据库内部的对象结构进行创建、删除、修改等的操作语言,这些数据库对象包括 database(schema)、table、view、index 等。核心语法由 CREATE、ALTER 与 DROP 三个所组 阅读全文
posted @ 2023-07-29 23:06 tree6x7 阅读(65) 评论(0) 推荐(0) 编辑
摘要:# 1. Hive 概述 ## 1.1 什么是 Hive? Apache Hive 是一款**建立在 Hadoop 之上的开源数据仓库工具**,可以将存储在 Hadoop 文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似 SQL 的查询模型,称为 Hive 查询语言(HQL) 阅读全文
posted @ 2023-07-29 22:03 tree6x7 阅读(131) 评论(0) 推荐(0) 编辑
摘要:# 1. 数据仓库 数据仓库(Data Warehouse,简称数仓、DW)是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需 阅读全文
posted @ 2023-07-29 21:53 tree6x7 阅读(131) 评论(0) 推荐(0) 编辑
摘要:# 1. YARN 应用开发流程 YARN 作为通用的资源管理和任务调度平台。理论上,任何类型的程序只要符合规范就可以申请在 YARN 上运行。默认 YARN 实现了 MapReduce 程序的运行支持。 所谓的 YARN 应用开发指的就是如何让自己的程序也可以根据规范在 YARN 申请资源运行。通 阅读全文
posted @ 2023-07-29 21:46 tree6x7 阅读(64) 评论(0) 推荐(0) 编辑
摘要:# 1. YARN 命令 YARN 命令 `${HADOOP_HOME}/bin/yarn` 在不带任何参数的情况下运行 yarn 脚本会打印所有命令的描述,命令分为用户命令和管理命令。 ```sh $ yarn Usage: yarn [OPTIONS] SUBCOMMAND [SUBCOMMAN 阅读全文
posted @ 2023-07-29 21:33 tree6x7 阅读(99) 评论(0) 推荐(0) 编辑
摘要:# 1. 框架概述 ## 1.1 发展简史 数据、程序、运算资源(内存、CPU)三者组在一起,完成了数据的计算处理过程。在单机环境下,这些都不是太大问题。为了应对海量数据的场景,Hadoop 出现并提供了分而治之的分布式处理思想。通过对 Hadoop 版本演进的简单回顾,可以让我们知道 YARN 的 阅读全文
posted @ 2023-07-29 21:23 tree6x7 阅读(129) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
主题色彩