三大件 - 随笔分类 - Stitches

hadoop03_Yarn

摘要：Yarn Hadoop 1.x 中包括 HDFS、MapReduce，其中 MapReduce 既是计算框架又是资源管理框架，它的架构为主从架构。 JobTracker 作为主节点，接受客户端提交的作业 Job，然后为该 Job 在 TaskTracker 上分配资源，之后将 Job 拆分为 Tas 阅读全文

posted @ 2024-06-28 20:00 Stitches 阅读(37) 评论(0) 推荐(0)

hadoop04_MapReduce

摘要：MapReduce 模型 MapReduce 核心思想是移动任务而非移动数据 MapReduce 是一种编程模型，对数据集执行 MAP 映射，然后对结果进行 Reduce 规约，适用于大规模数据集的并行计算。核心思想可以理解为分治法，数据固定不动，分派计算任务到不同计算节点计算。模型介绍 MapR 阅读全文

posted @ 2024-06-28 20:00 Stitches 阅读(58) 评论(0) 推荐(0)

hadoop02_HDFS

摘要：HDFS HDFS全称Hadoop Distributed File System，Hadoop分布式文件系统。 HDFS 有以下缺点：不适合低延迟的数据访问，因为数据存储到 HDFS 上，首先会切分为固定大小的数据块，然后对每块存储并进行多副本备份。读取数据时首先要从各个节点读取小数据块然后合并阅读全文

posted @ 2024-06-26 20:19 Stitches 阅读(60) 评论(0) 推荐(0)

hadoop00_大数据技术介绍

摘要：生态架构数据导入离线方式处理的数据，需要通过 ETL 模块实现导入到大数据存储系统进行存储；其中 Sqoop 是常见的抽取结构化数据工具，而 Flume、LogStach 是用于抽取结构化、半结构化数据的工具。数据存储大数据的数据存储系统，最常见的包括分布式文件系统 HDFS；如果需要使用阅读全文

posted @ 2024-06-26 20:19 Stitches 阅读(33) 评论(0) 推荐(0)

hadoop01_组成

摘要：Hadoop 不同版本的组成 MapReduce 模型 MapReduce 是一种编程模型，对数据集执行 MAP 映射，然后对结果进行 Reduce 规约，适用于大规模数据集的并行计算。核心思想可以理解为分治法，数据固定不动，分派计算任务到不同计算节点计算。模型介绍 MapReduce 适用场景：阅读全文

posted @ 2024-06-26 20:19 Stitches 阅读(42) 评论(0) 推荐(0)

istitches

随笔分类 - 大数据 / 三大件

公告