大数据技术 - 随笔分类 - 踏雪扬尘-wx

flink state专项练习

摘要：简介 flink state 毫不夸张的讲是 flink最核心的功能，个人理解是比 spark强大百倍的最关键实现，既然如此核心，所以接下来就进行专项练习以求彻底搞懂并且学习。案例执行测试代码 public class TestKeyedStateMain { public static voi 阅读全文

posted @ 2021-12-19 22:24 踏雪扬尘-wx 阅读(107) 评论(0) 推荐(0) 编辑

flink知识分享

摘要：简介 Apache Flink® — Stateful Computations over Data Streams 有状态的流是其最大的特性，可以使用 stage 进行各种状态的保存。 flink 架构图 flink 核心概念有状态分布式并行度 flink 分布式运行环境： TaskMan 阅读全文

posted @ 2021-12-19 19:52 踏雪扬尘-wx 阅读(262) 评论(0) 推荐(0) 编辑

sparkSQL

摘要：概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Spark SQL的特点容易整合（集成）统一的数据访问方式兼容Hive 标准的数据连接基本概念：Datasets和DataFrames DataF 阅读全文

posted @ 2021-12-15 14:42 踏雪扬尘-wx 阅读(297) 评论(0) 推荐(0) 编辑

spark-core资源调优

摘要：Spark作业基本运行原理 1、Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批task，然后将这些task分配到各个Executor进程中执行。 Executor 内存使用分为三块 1、让task执行我们自己编写的代阅读全文

posted @ 2021-12-15 12:03 踏雪扬尘-wx 阅读(207) 评论(0) 推荐(0) 编辑

spark开发调优

摘要：开发调优原则避免创建重复的RDD 对于同一份数据，只应该创建一个 RDD，不能创建多个 RDD 来代表同一份数据。否则我们的 Spark 作业会进行多次重复计算来创建多个代表相同数据的 RDD，进而增加了作业的性能开销。 // 需要对名为“hello.txt”的HDFS文件进行一次map操作，阅读全文

posted @ 2021-12-14 17:20 踏雪扬尘-wx 阅读(203) 评论(0) 推荐(0) 编辑

spark-core 学习

摘要：Spark 比 MR 好在那？（）Hadoop的MapReduce计算模型存在的问题： MapReduce的核心是Shuffle（洗牌）。在整个Shuffle的过程中，至少会产生6次的I/O。中间结果输出：基于MapReduce的计算引擎通常会将中间结果输出到磁盘上，进行存储和容错。另外，当阅读全文

posted @ 2021-12-14 15:27 踏雪扬尘-wx 阅读(53) 评论(0) 推荐(0) 编辑

HBASE使用详解

摘要：HBASE 安装启动 vim hbase-site.xml <configuration> 开启伪分布式 <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> 设置HBASE 数据的存储地址阅读全文

posted @ 2021-11-30 14:29 踏雪扬尘-wx 阅读(500) 评论(0) 推荐(0) 编辑

Doris临时分区

摘要：临时分区临时分区是归属于某一分区表的。只有分区表可以创建临时分区。这块很核心只有分区表才会有临时分区。规则：临时分区的分区字段和正式分区一样临时分区的名称必须不一样并且和正式分区也不一样临时分区支持添加、删除、替换操作临时分区的添加和正式分区的添加操作相似。临时分区的分区范围独立于正式分阅读全文

posted @ 2021-11-24 16:03 踏雪扬尘-wx 阅读(2184) 评论(0) 推荐(0) 编辑

doris内核设计原理

摘要：Doris存储文件格式优化 GROUPING SETS 设计文档 GROUP BY GROUPING SETS 是对 GROUP BY 子句的扩展，它能够在一个 GROUP BY 子句中一次实现多个集合的分组。其结果等价于将多个相应 GROUP BY 子句进行 UNION 操作。 SELECT k1 阅读全文

posted @ 2021-11-22 13:49 踏雪扬尘-wx 阅读(483) 评论(0) 推荐(0) 编辑

Doris扩展能力

摘要：审计日志插件 Doris 的审计日志插件是在 FE 的插件框架基础上开发的。是一个可选插件。用户可以在运行时安装或卸载这个插件。该插件可以将 FE 的审计日志定期的导入到指定 Doris 集群中，以方便用户通过 SQL 对审计日志进行查看和分析。 Doris On ES Doris-On-ES将D 阅读全文

posted @ 2021-11-22 12:01 踏雪扬尘-wx 阅读(658) 评论(0) 推荐(0) 编辑

elastic-search随笔

摘要：安装下载安装包，进入目录以下命令启动 ./bin/elasticsearch 。如果这时报错"max virtual memory areas vm.maxmapcount [65530] is too low"，要运行下面的命令。 sudo sysctl -w vm.max_map_coun 阅读全文

posted @ 2021-11-20 13:56 踏雪扬尘-wx 阅读(57) 评论(0) 推荐(0) 编辑

Doris 实战

摘要：概述安装 FE URL地址如下： http://hostname:8030/system?path=//frontends SHOW PROC '/backends'; SHOW PROC '/frontends'; 简单使用 Doris 采用 MySQL 协议进行通信，用户可通过 MySQL c 阅读全文

posted @ 2021-11-18 10:32 踏雪扬尘-wx 阅读(2281) 评论(0) 推荐(0) 编辑

hive运维

摘要：概述 hive要使用，最常设置的包括元数据存储到 MySQL。启动 HiveMetaStore 服务，该服务的作用就是元数据存储的中介，所有元数据操作通过它去交互。这样只需要部署一个该服务，就可以扩展多个 hive client 进行访问。启动方式如下： hive --service m 阅读全文

posted @ 2021-11-16 14:02 踏雪扬尘-wx 阅读(108) 评论(0) 推荐(0) 编辑

来自火星写代码的你

随笔分类 - 大数据技术