随笔分类 -  【117】Hadoop生态体系

摘要:序言 Centos7环境设置 1: 静态ip的设置 2:主机名的设置 vim /etc/sysconfig/network # 编辑network文件修改hostname行(重启生效) HOSTANME=node1 或者通过命令 hostnamectl --static set-hostname n 阅读全文
posted @ 2020-02-23 21:58 ~沐风 阅读(234) 评论(0) 推荐(0) 编辑
摘要:序言 YARN(Yet Another Resource Negotiator,又一款资源协调器),管理和监控集群的负载,并进行作业分配,有时也被称为Hadoop的数据操作系统,由ResourceManage和NodeManager组成。 ResourceManager(资源管理器):YARN的主节 阅读全文
posted @ 2020-02-23 16:23 ~沐风 阅读(137) 评论(0) 推荐(0) 编辑
摘要:序言 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是典型的“分而治之”的思想。 MapReduce产生背景 如果让你统计日志里面的出现的某个URL的总次数,让你自己去写个单机版的程序,写个逻辑:无非就是读这个文件一行, 阅读全文
posted @ 2020-02-23 10:53 ~沐风 阅读(167) 评论(0) 推荐(0) 编辑
摘要:序言 分布式文件系统未出现的时候,一个文件只能存储在个服务器上,如果有个TB级别的文件,我们该怎么存储呢?,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出现就是为了解决上面分布式存储的问题。 hdfs为 阅读全文
posted @ 2020-02-23 10:23 ~沐风 阅读(181) 评论(0) 推荐(0) 编辑
摘要:序言 Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。 Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。 举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。 举例2 阅读全文
posted @ 2019-12-04 22:21 ~沐风 阅读(515) 评论(0) 推荐(0) 编辑