【117】Hadoop生态体系 - 随笔分类 - ~沐风

Hadoop——环境搭建

摘要：序言 Centos7环境设置 1: 静态ip的设置 2：主机名的设置 vim /etc/sysconfig/network # 编辑network文件修改hostname行(重启生效) HOSTANME=node1 或者通过命令 hostnamectl --static set-hostname n 阅读全文

posted @ 2020-02-23 21:58 ~沐风阅读(257) 评论(0) 推荐(0)

Hadoop——YARN

摘要：序言 YARN（Yet Another Resource Negotiator，又一款资源协调器），管理和监控集群的负载，并进行作业分配，有时也被称为Hadoop的数据操作系统，由ResourceManage和NodeManager组成。 ResourceManager（资源管理器）：YARN的主节阅读全文

posted @ 2020-02-23 16:23 ~沐风阅读(152) 评论(0) 推荐(0)

Hadoop——MapReduce

摘要：序言 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是典型的“分而治之”的思想。 MapReduce产生背景如果让你统计日志里面的出现的某个URL的总次数，让你自己去写个单机版的程序，写个逻辑：无非就是读这个文件一行, 阅读全文

posted @ 2020-02-23 10:53 ~沐风阅读(190) 评论(0) 推荐(0)

Hadoop——HDFS

摘要：序言分布式文件系统未出现的时候，一个文件只能存储在个服务器上，如果有个TB级别的文件，我们该怎么存储呢？，可想而知，单个服务器根本就存储不了这么大的文件；退而求其次，就算一个服务器可以存储这么大的文件，你如果想打开这个文件，效率会高吗？ hdfs的出现就是为了解决上面分布式存储的问题。 hdfs为阅读全文

posted @ 2020-02-23 10:23 ~沐风阅读(193) 评论(0) 推荐(0)

Hadoop——生态体系

摘要：序言 Hadoop是一个开源的大数据框架，是一个分布式计算的解决方案。 Hadoop的两个核心解决了数据存储问题（HDFS分布式文件系统）和分布式计算问题（MapRe-duce）。举例1：用户想要获取某个路径的数据，数据存放在很多的机器上，作为用户不用考虑在哪台机器上，HD-FS自动搞定。举例2 阅读全文

posted @ 2019-12-04 22:21 ~沐风阅读(538) 评论(0) 推荐(0)

沐风

随笔分类 - 【117】Hadoop生态体系

公告