Hadoop - 随笔分类 - guoyu1

摘要：https://blog.csdn.net/penriver/article/details/118930744 阅读全文

posted @ 2024-05-09 20:00 guoyu1 阅读(3) 评论(0) 推荐(0) 编辑

摘要：互联网公司的 Hadoop 集群一般都会比较大，几百台服务器会分布在不同的机架上，甚至在不同的机房。出于保证数据安全性和数据传输的高效性的平衡考虑，HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内，而不是跨机架和跨机房。同时，NameNode 在分配 Block 的存储位置的时候，会尽可能阅读全文

posted @ 2023-12-11 18:13 guoyu1 阅读(75) 评论(0) 推荐(0) 编辑

hdfs回收站

摘要：hadoop fs -ls /user/root/.Trash/ hadoop fs -ls /user/root/.Trash/211019200015/user/hive/warehouse/yum_area_ods.db/dim_store_goi 阅读全文

posted @ 2021-10-19 20:28 guoyu1 阅读(33) 评论(0) 推荐(0) 编辑

Hadoop集群搭建

摘要：一、hdfs安装： 1、上传hadoop安装包到hdp-01 2、修改配置文件要点提示核心配置参数： 1) 指定hadoop的默认文件系统为：hdfs 2) 指定hdfs的namenode节点为哪台机器 3) 指定namenode软件存储元数据的本地目录 4) 指定datanode软件存放文件块阅读全文

posted @ 2020-07-16 09:58 guoyu1 阅读(136) 评论(0) 推荐(0) 编辑

CDH

摘要：1、CDH： CDH是Cloudera的100％开源平台发行版，包括Apache Hadoop，专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成，Cloudera创建了一个功能先进的系统，可帮助您执行端到端的大数据工作流程。简单来说：阅读全文

posted @ 2020-03-20 08:44 guoyu1 阅读(452) 评论(0) 推荐(0) 编辑

MapReduce程序编写过程

摘要：一、MapReduce程序编写：（1）继承Mapper类，重写map方法: org.apache.hadoop.mapreduce.Mapper public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWri 阅读全文

posted @ 2020-03-11 11:22 guoyu1 阅读(701) 评论(0) 推荐(0) 编辑

hadoop常用的调优参数

摘要：1）资源相关参数（1）以下参数是在用户自己的mr应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则阅读全文

posted @ 2020-01-28 11:25 guoyu1 阅读(727) 评论(0) 推荐(0) 编辑

MapReduce优化

摘要：一、MapReduce跑的慢的原因： Mapreduce 程序效率的瓶颈在于两点： 1）计算机性能 CPU、内存、磁盘健康、网络 2）I/O 操作优化（1）数据倾斜（2）map和reduce数设置不合理（3）reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）spil 阅读全文

posted @ 2020-01-27 20:11 guoyu1 阅读(495) 评论(0) 推荐(0) 编辑

文件压缩

摘要：1、为什么对文件进行压缩？在Hadoop中，文件需要存储、传输、读取磁盘、写入磁盘等等操作，而文件的大小，直接决定了这些这些操作的速度。 2、压缩的好处和坏处（1）好处：减少存储磁盘空间降低IO(网络的IO和磁盘的IO) 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度（2）坏处：阅读全文

posted @ 2020-01-20 17:05 guoyu1 阅读(689) 评论(0) 推荐(0) 编辑

MapReduce--Shuffle原理

摘要：一、MR的shuffle流程。 1、什么是shuffle：mapreduce 主要分为map阶段和reduce阶段，map阶段主要是将从源加载过来的数据，转换为key value键值对。reduce阶段就是并行处理具有相同key的键值对，将其进行聚合处理，输出新的键值对作为结果。而为了保证reduc 阅读全文

posted @ 2020-01-20 16:17 guoyu1 阅读(482) 评论(0) 推荐(0) 编辑

Yarn资源调度器

摘要：一、yarn中的角色： ResourceManager：集群计算资源的分配，启动ApplicationMaster，监控NodeManager的状态。 NodeManager：启动和管理节点中的容器。 ApplicationMaster：运行mapreduce任务，每个job有一个，分配map在哪里阅读全文

posted @ 2019-12-10 17:12 guoyu1 阅读(749) 评论(0) 推荐(0) 编辑

HDFS

摘要：一、HDFS节点角色：（1）namenode：1、用来存储HDFS的元数据信息，这里的元数据信息指的是文件系统的命名空间。启动时，将这些信息加载到namenode内存。 2、元数据信息也会在磁盘上保存成fsimage和edit log 文件。 3、namenode的内存中也会保存文件的具体信息，如阅读全文

posted @ 2019-11-18 19:23 guoyu1 阅读(191) 评论(0) 推荐(0) 编辑

打怪up

随笔分类 - Hadoop

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论