曾经沧海难为水,除却巫山不是云。|

Joey-Wang

园龄:4年2个月粉丝:17关注:0

01 2022 档案

框架汇总
摘要:Hadoop 各组件功能: NameNode:元数据管理、DataNode定位 Secondary NameNode:充当NameNode的备份 DataNode:数据块存储 容错机制: NameNode 故障:利用 Secondary NameNode 的FsImage和Editlog恢复,会丢失
108
0
1
chapter11 图处理系统Giraph
摘要:Giraph利用MapReduce框架,不是基于MapReduce API计算。 1 设计思想 已有的图算法库或MapReduce系统不具备下列特点: 对图处理算法通用 支持大规模图处理 自身具备容错能力 为图处理进行优化 1.1 数据模型 数据结构中通常使用邻接矩阵/邻接表表示图顶点与边的关系:
336
0
0
chapter10 批流融合系统Flink
摘要:Flink:批流一体化的执行引擎且支持Dataflow模型中定义的批流融合操作 1 设计思想 Flink系统设计思想:以流计算为核心,将有界数据视为无界数据的特例。 类似于Storm,Flink将需处理的数据抽象为DataStream形式,使用DAG描述计算过程。 不同于Spark,Flink提供内
245
0
0
chapter9 批流融合基础
摘要:1 批流融合的背景 批处理 🆚 流计算 批处理系统适合处理**大批量数据、实时性要求不高**的场景 流计算系统适合处理**快速产生的数据、实时性要求高**的场景 但是,同一场景可能既有大批量数据、又有快速产生的数据,某些模块实时性要求高,某些模块实时性要求低。因此,批处理与流计算相融合有深刻的应用
261
0
0
chapter8 流计算系统Spark Streaming
摘要:Spark Streaming实际是Spark核心API的一个扩展,可实现高吞吐量、具有容错机制的实时流数据处理。 Spark Streaming将连续的流数据进行离散化后交给Spark批处理系统,实现了利用批处理系统来支持流计算。 1 设计思想 Storm是一个纯粹的流计算系统,Spark Str
122
0
0
chapter7 流计算系统Storm
摘要:批处理:处理的输入数据是静态的,即输入数据在计算开始前已确定 流计算:处理的输入数据是动态的,即输入数据在计算开始后才逐步到达 流数据:大量、快速、时变并持续到达的数据 Storm 是开源的分布式流计算系统,用于支持实时计算。 1 设计思想 与MapReduce、Spark等批处理系统不同,Stor
175
0
0
chapter6 协调服务系统 Zookeeper
摘要:[TOC] ZooKeeper:轻量级的分布式系统,用于解决分布式应用中通用的协作问题。 ## 1 设计思想 1. MapReduce1.0 架构的 JobTracker 故障: - 重新启动 JobTracker,所有作业需要重新执行 - MapReduce1.0 没有处理 JobTracker
62
0
0
chapter5 资源管理系统Yarn
摘要:Yarn最初就为MapReduce设计的资源管理器。 后逐步成为一个通用的资源管理系统,为上层应用提供统一的资源管理和调度。 1 设计思想 1.1 作业与资源管理 第一代MapReduce架构的缺陷: 资源管理和作业管理紧密耦合(都由JobTracker负责)。但资源管理与具体的作业无关。 作业的控
228
0
0
chapter4 批处理系统Spark
摘要:Spark最初的设计目标是基于内存计算的大数据批处理系统,用于构建大型的、低延迟的数据分析应用程序。 Spark从最初仅使用内存的批处理系统,转为内外存同时使用的批处理系统,增加 Spark Streaming 支持实时流计算,Structured Streaming 支持批流融合,也提供机器学习工
224
0
0
chapter3 批处理系统MapReduce
摘要:MapReduce指Hadoop项目中的MapReduce。 MapReduce 主要用于处理大批量的静态数据。——批处理系统 静态数据指计算开始前这些数据就已经确定。 1 设计思想 1.1 MPI与MapReduce MapReduce出现前,程序员使用MPI并行处理数据。MPI是一个信息传递接口
287
0
0
chapter2 Hadoop文件系统
摘要:Doug Cutting 根据 GFS 和 MapReduce 的思想创建了开源的 Hadoop 项目。 通常认为 Hadoop 项目是 Google 发表的学术论文 GFS 和 MapReduce 的开源实现。 Hadoop的核心是分布式文件系统HDFS和MapReduce。 1 设计思想 分布式
87
0
0
chapter1 绪论
摘要:1 分布式系统 分布式系统的定义 分布式系统的定义:若干独立计算机的集合,对用户来说**就像一个单机的系统**。 分布式系统常常通过一个”软件层“组织,此”软件层“在逻辑上位于高层(由用户和应用程序组成)与低层(操作系统组成)之间。因此这样的分布式系统又称为中间件。 分布式系统的类型 基于计算机构建
87
0
0
Clion远程编译调试 ClickHouse
摘要:参考:Clion远程调试C++ Clion远程调试的两种方法: Clion本地与服务器端代码同步后,服务器端通过gdbserver监听端口,本地Clion连接调试 Clion通过Toolchains实现远端执行调试 (方法一未实践,感觉略繁琐,此处使用方法二) 1 下载ClickHouse代码 此处
1355
0
0
点击右上角即可分享
微信分享提示
深色
回顶
展开