摘要:简介 flink state 毫不夸张的讲是 flink最核心的功能,个人理解是比 spark强大百倍的最关键实现,既然如此核心,所以接下来就进行专项练习以求彻底搞懂并且学习。 案例执行 测试代码 public class TestKeyedStateMain { public static voi
阅读全文
摘要:简介 Apache Flink® — Stateful Computations over Data Streams 有状态的流是其最大的特性, 可以使用 stage 进行各种状态的保存。 flink 架构图 flink 核心概念 有状态 分布式 并行度 flink 分布式运行环境: TaskMan
阅读全文
摘要:概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Spark SQL的特点 容易整合(集成) 统一的数据访问方式 兼容Hive 标准的数据连接 基本概念:Datasets和DataFrames DataF
阅读全文
摘要:Spark作业基本运行原理 1、Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段,并为每个stage创建一批task,然后将这些task分配到各个Executor进程中执行。 Executor 内存使用分为三块 1、让task执行我们自己编写的代
阅读全文
摘要:开发调优原则 避免创建重复的RDD 对于同一份数据,只应该创建一个 RDD,不能创建多个 RDD 来代表同一份数据。否则 我们的 Spark 作业会进行多次重复计算来创建多个代表相同数据 的 RDD,进而增加了作业的性能开销。 // 需要对名为“hello.txt”的HDFS文件进行一次map操作,
阅读全文
摘要:Spark 比 MR 好在那? ()Hadoop的MapReduce计算模型存在的问题: MapReduce的核心是Shuffle(洗牌)。在整个Shuffle的 过程中,至少会产生6次的I/O。 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。另 外,当
阅读全文
摘要:HBASE 安装启动 vim hbase-site.xml <configuration> 开启伪分布式 <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> 设置HBASE 数据的存储地址
阅读全文
摘要:临时分区 临时分区是归属于某一分区表的。只有分区表可以创建临时分区。这块很核心只有分区表才会有临时分区。 规则: 临时分区的分区字段和正式分区一样 临时分区的名称必须不一样并且和正式分区也不一样 临时分区支持添加、删除、替换操作 临时分区的添加和正式分区的添加操作相似。临时分区的分区范围独立于正式分
阅读全文
摘要:Doris存储文件格式优化 GROUPING SETS 设计文档 GROUP BY GROUPING SETS 是对 GROUP BY 子句的扩展,它能够在一个 GROUP BY 子句中一次实现多个集合的分组。其结果等价于将多个相应 GROUP BY 子句进行 UNION 操作。 SELECT k1
阅读全文
摘要:审计日志插件 Doris 的审计日志插件是在 FE 的插件框架基础上开发的。是一个可选插件。用户可以在运行时安装或卸载这个插件。 该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中,以方便用户通过 SQL 对审计日志进行查看和分析。 Doris On ES Doris-On-ES将D
阅读全文
摘要:安装 下载安装包,进入目录 以下命令启动 ./bin/elasticsearch 。 如果这时报错"max virtual memory areas vm.maxmapcount [65530] is too low",要运行下面的命令。 sudo sysctl -w vm.max_map_coun
阅读全文
摘要:概述 安装 FE URL地址如下: http://hostname:8030/system?path=//frontends SHOW PROC '/backends'; SHOW PROC '/frontends'; 简单使用 Doris 采用 MySQL 协议进行通信,用户可通过 MySQL c
阅读全文
摘要:概述 hive要使用,最常设置的包括元数据存储到 MySQL。 启动 HiveMetaStore 服务 , 该服务的作用就是 元数据存储的中介, 所有元数据操作通过它去交互。这样只需要部署一个该服务,就可以扩展多个 hive client 进行访问。 启动方式如下: hive --service m
阅读全文