随笔分类 - Hadoop
摘要:https://blog.csdn.net/penriver/article/details/118930744
阅读全文
摘要:互联网公司的 Hadoop 集群一般都会比较大,几百台服务器会分布在不同的机架上,甚至在不同的机房。出于保证数据安全性和数据传输的高效性的平衡考虑,HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架和跨机房。同时,NameNode 在分配 Block 的存储位置的时候,会尽可能
阅读全文
摘要:hadoop fs -ls /user/root/.Trash/ hadoop fs -ls /user/root/.Trash/211019200015/user/hive/warehouse/yum_area_ods.db/dim_store_goi
阅读全文
摘要:一、hdfs安装: 1、上传hadoop安装包到hdp-01 2、修改配置文件 要点提示 核心配置参数: 1) 指定hadoop的默认文件系统为:hdfs 2) 指定hdfs的namenode节点为哪台机器 3) 指定namenode软件存储元数据的本地目录 4) 指定datanode软件存放文件块
阅读全文
摘要:1、CDH: CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。 简单来说:
阅读全文
摘要:一、MapReduce程序编写: (1)继承Mapper类,重写map方法: org.apache.hadoop.mapreduce.Mapper public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWri
阅读全文
摘要:1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则
阅读全文
摘要:一、MapReduce跑的慢的原因: Mapreduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘健康、网络 2)I/O 操作优化 (1)数据倾斜 (2)map和reduce数设置不合理 (3)reduce等待过久 (4)小文件过多 (5)大量的不可分块的超大文件 (6)spil
阅读全文
摘要:1、为什么对文件进行压缩? 在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。 2、压缩的好处和坏处 (1)好处: 减少存储磁盘空间 降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度 (2)坏处:
阅读全文
摘要:一、MR的shuffle流程。 1、什么是shuffle:mapreduce 主要分为map阶段和reduce阶段,map阶段主要是将从源加载过来的数据,转换为key value键值对。reduce阶段就是并行处理具有相同key的键值对,将其进行聚合处理,输出新的键值对作为结果。而为了保证reduc
阅读全文
摘要:一、yarn中的角色: ResourceManager:集群计算资源的分配,启动ApplicationMaster,监控NodeManager的状态。 NodeManager:启动和管理节点中的容器。 ApplicationMaster:运行mapreduce任务,每个job有一个,分配map在哪里
阅读全文
摘要:一、HDFS节点角色: (1)namenode:1、用来存储HDFS的元数据信息,这里的元数据信息指的是文件系统的命名空间。启动时,将这些信息加载到namenode内存。 2、元数据信息也会在磁盘上保存成fsimage和edit log 文件。 3、namenode的内存中也会保存文件的具体信息,如
阅读全文