随笔分类 -  大数据技术

所有大数据技术概述
flink state专项练习
摘要:简介 flink state 毫不夸张的讲是 flink最核心的功能,个人理解是比 spark强大百倍的最关键实现,既然如此核心,所以接下来就进行专项练习以求彻底搞懂并且学习。 案例执行 测试代码 public class TestKeyedStateMain { public static voi 阅读全文

posted @ 2021-12-19 22:24 踏雪扬尘-wx 阅读(107) 评论(0) 推荐(0) 编辑

flink知识分享
摘要:简介 Apache Flink® — Stateful Computations over Data Streams 有状态的流是其最大的特性, 可以使用 stage 进行各种状态的保存。 flink 架构图 flink 核心概念 有状态 分布式 并行度 flink 分布式运行环境: TaskMan 阅读全文

posted @ 2021-12-19 19:52 踏雪扬尘-wx 阅读(262) 评论(0) 推荐(0) 编辑

sparkSQL
摘要:概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Spark SQL的特点 容易整合(集成) 统一的数据访问方式 兼容Hive 标准的数据连接 基本概念:Datasets和DataFrames DataF 阅读全文

posted @ 2021-12-15 14:42 踏雪扬尘-wx 阅读(297) 评论(0) 推荐(0) 编辑

spark-core资源调优
摘要:Spark作业基本运行原理 1、Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段,并为每个stage创建一批task,然后将这些task分配到各个Executor进程中执行。 Executor 内存使用分为三块 1、让task执行我们自己编写的代 阅读全文

posted @ 2021-12-15 12:03 踏雪扬尘-wx 阅读(207) 评论(0) 推荐(0) 编辑

spark开发调优
摘要:开发调优原则 避免创建重复的RDD 对于同一份数据,只应该创建一个 RDD,不能创建多个 RDD 来代表同一份数据。否则 我们的 Spark 作业会进行多次重复计算来创建多个代表相同数据 的 RDD,进而增加了作业的性能开销。 // 需要对名为“hello.txt”的HDFS文件进行一次map操作, 阅读全文

posted @ 2021-12-14 17:20 踏雪扬尘-wx 阅读(203) 评论(0) 推荐(0) 编辑

spark-core 学习
摘要:Spark 比 MR 好在那? ()Hadoop的MapReduce计算模型存在的问题: MapReduce的核心是Shuffle(洗牌)。在整个Shuffle的 过程中,至少会产生6次的I/O。 中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。另 外,当 阅读全文

posted @ 2021-12-14 15:27 踏雪扬尘-wx 阅读(53) 评论(0) 推荐(0) 编辑

HBASE使用详解
摘要:HBASE 安装启动 vim hbase-site.xml <configuration> 开启伪分布式 <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> 设置HBASE 数据的存储地址 阅读全文

posted @ 2021-11-30 14:29 踏雪扬尘-wx 阅读(500) 评论(0) 推荐(0) 编辑

Doris临时分区
摘要:临时分区 临时分区是归属于某一分区表的。只有分区表可以创建临时分区。这块很核心只有分区表才会有临时分区。 规则: 临时分区的分区字段和正式分区一样 临时分区的名称必须不一样并且和正式分区也不一样 临时分区支持添加、删除、替换操作 临时分区的添加和正式分区的添加操作相似。临时分区的分区范围独立于正式分 阅读全文

posted @ 2021-11-24 16:03 踏雪扬尘-wx 阅读(2184) 评论(0) 推荐(0) 编辑

doris内核设计原理
摘要:Doris存储文件格式优化 GROUPING SETS 设计文档 GROUP BY GROUPING SETS 是对 GROUP BY 子句的扩展,它能够在一个 GROUP BY 子句中一次实现多个集合的分组。其结果等价于将多个相应 GROUP BY 子句进行 UNION 操作。 SELECT k1 阅读全文

posted @ 2021-11-22 13:49 踏雪扬尘-wx 阅读(483) 评论(0) 推荐(0) 编辑

Doris扩展能力
摘要:审计日志插件 Doris 的审计日志插件是在 FE 的插件框架基础上开发的。是一个可选插件。用户可以在运行时安装或卸载这个插件。 该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中,以方便用户通过 SQL 对审计日志进行查看和分析。 Doris On ES Doris-On-ES将D 阅读全文

posted @ 2021-11-22 12:01 踏雪扬尘-wx 阅读(658) 评论(0) 推荐(0) 编辑

elastic-search随笔
摘要:安装 下载安装包,进入目录 以下命令启动 ./bin/elasticsearch 。 如果这时报错"max virtual memory areas vm.maxmapcount [65530] is too low",要运行下面的命令。 sudo sysctl -w vm.max_map_coun 阅读全文

posted @ 2021-11-20 13:56 踏雪扬尘-wx 阅读(57) 评论(0) 推荐(0) 编辑

Doris 实战
摘要:概述 安装 FE URL地址如下: http://hostname:8030/system?path=//frontends SHOW PROC '/backends'; SHOW PROC '/frontends'; 简单使用 Doris 采用 MySQL 协议进行通信,用户可通过 MySQL c 阅读全文

posted @ 2021-11-18 10:32 踏雪扬尘-wx 阅读(2281) 评论(0) 推荐(0) 编辑

hive运维
摘要:概述 hive要使用,最常设置的包括元数据存储到 MySQL。 启动 HiveMetaStore 服务 , 该服务的作用就是 元数据存储的中介, 所有元数据操作通过它去交互。这样只需要部署一个该服务,就可以扩展多个 hive client 进行访问。 启动方式如下: hive --service m 阅读全文

posted @ 2021-11-16 14:02 踏雪扬尘-wx 阅读(108) 评论(0) 推荐(0) 编辑

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

统计

点击右上角即可分享
微信分享提示