随笔分类 -  大数据框架-Hadoop

摘要:MapReduce提交过程 在Xshell中输入bash -X命令可以在Bash shell中启用debug模式,显示执行过程中的详细信息,例如每条命令的执行结果以及执行的步骤。 Hadoop提交执行 开始使用Java命令执行 java org.apache.hadoop.util.RunJar h 阅读全文
posted @ 2024-08-10 17:26 shmil 阅读(38) 评论(0) 推荐(0) 编辑
摘要:1、MapReduce序列化(接着昨天的知识继续学习) 序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。 当两个进程在进行远程通信时,彼此 阅读全文
posted @ 2024-08-09 15:30 shmil 阅读(21) 评论(1) 推荐(1) 编辑
摘要:1、MapReduce概述及原理 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段 阅读全文
posted @ 2024-08-08 15:31 shmil 阅读(15) 评论(1) 推荐(1) 编辑
摘要:Hadoop三大组件的介绍 1、yarn架构分析 yarn:资源的调度和管理平台。 主从结构 主节点,可以有2个:ResourceManager 从节点,有很多个: NodeManager ResourceManager负责 集群资源的分配与调度 MapReduce、Storm、Spark等应用,必 阅读全文
posted @ 2024-08-07 16:10 shmil 阅读(28) 评论(1) 推荐(1) 编辑
摘要:首先我们来了解一下大数据 什么是大数据? 高速:指数据产生的速度非常快,对于用户的使用记录等日志信息,产生的速度会非常快,那么对这部分数据做数据采集分析,要求速度也非常快 所以需要应用分布式处理技术,而大数据所学习的都是分布式处理应用,该应用可以在多个服务器中进行使用,并获取其计算资源,帮助我们完成 阅读全文
posted @ 2024-08-06 15:20 shmil 阅读(76) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示