心平万物顺 - 博客园

2022年2月28日

摘要：基本介绍：概述： CAP理论中的CP模型特点：高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, 由多个consumer group 对partition进行consume操作。可扩展性：kafka集群支持热扩展持久性、可阅读全文

posted @ 2022-02-28 10:16 心平万物顺阅读(307) 评论(0) 推荐(0)

zookeeper整理知识点

摘要：基本概念：概述： Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。ZooKeeper 提供给客户端监控存储在z 阅读全文

posted @ 2022-02-28 10:13 心平万物顺阅读(186) 评论(0) 推荐(0)

2022年2月23日

Apache Druid

摘要：基本概念：概述： Metamarkets 公司（一家为在线媒体或广告公司提供数据分析服务的公司）推出的一个分布式内存实时分析系统，用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。Druid 是一个开源的数据分析引擎工具，为实时和历史数据的次秒级（多于一秒）查询设计。主要应用于对数据的O 阅读全文

posted @ 2022-02-23 20:06 心平万物顺阅读(1096) 评论(0) 推荐(0)

2022年1月25日

scala整理知识点

摘要：基本介绍：起源：将函数式编程语言的特点融合到Java中，由此发明了Scala。更简洁、更灵活。语言特点： Scala是一门以 JVM 为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。Scala源代码会被编译成Java字节码，然后运行于JVM之上，并可以调用现有的Jav 阅读全文

posted @ 2022-01-25 13:46 心平万物顺阅读(269) 评论(0) 推荐(0)

hive整理笔记

摘要：基本介绍：概述：直接使用MapReduce处理大数据，将面临以下问题： - MapReduce 开发难度大，学习成本高(wordCount => Hello World)- Hdfs文件没有字段名、没有数据类型，不方便进行数据的有效管理- 使用MapReduce框架开发，项目周期长，成本高Hiv 阅读全文

posted @ 2022-01-25 12:56 心平万物顺阅读(299) 评论(0) 推荐(0)

clickhouse知识点

摘要：基本介绍：概念：一个快速开源的OLAP数据库管理系统，它是面向列的，允许使用SQL查询实时生成分析报告。背景知识：历史olap：定时（通常是T+1 或者 T+H）将 HBase 数据写成静态的文件（如：Parquet）导入到 OLAP 引擎（如：HDFS，比较常见的是Impala操作Hiv 阅读全文

posted @ 2022-01-25 12:45 心平万物顺阅读(2080) 评论(0) 推荐(0)

2022年1月19日

maven整理笔记

摘要：概述： Maven 是一个项目管理工具，主要用于项目构建，依赖管理，项目信息管理。Maven 是一个项目管理工具，它包含了一个项目对象模型，一组标准集合，一个项目生命周期，一个依赖管理系统，和用来运行定义在生命周期阶段中插件目标的工具。Maven 翻译为"专家"、"内行"，是 Apache 下的一个阅读全文

posted @ 2022-01-19 21:32 心平万物顺阅读(203) 评论(0) 推荐(0)

2022年1月14日

kubernetes整理知识点

摘要：基本介绍：编排历史：服务编排系统 =》容器编排系统docker compose\swarm\docker machinemesos,marathonkubernets 集群节点：聚合了所有node的cpu和内存，能自动寻找适合的node 运行单元： pods master组成： APIserv 阅读全文

posted @ 2022-01-14 16:19 心平万物顺阅读(1777) 评论(0) 推荐(0)

2022年1月6日

flink整理知识点

摘要：基本介绍：介绍： Spark的技术理念是基于批来模拟流的计算。而Flink则完全相反，它采用的是基于流计算来模拟批计算。Flink提供高吞吐量、低延迟的流数据引擎以及对事件-时间处理和状态管理的支持。Spark 虽然支持各种场见场景，但并不是每一种都同样好用。数据流的实时处理就是其中相对较弱的一环阅读全文

posted @ 2022-01-06 18:10 心平万物顺阅读(855) 评论(0) 推荐(0)

2021年12月29日

spark整理知识点

摘要：架构与运维：概述： Spark是一个分布式计算引擎，由 Scala 语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎；Spark的计算模式也属于MapReduce；Spark框架是对MR框架的优化；比较： MapReduce Spark数据存储结构：磁盘HDFS文件系统的spli 阅读全文

posted @ 2021-12-29 20:46 心平万物顺阅读(447) 评论(0) 推荐(0)

公告