摘要: 序言 Centos7环境设置 1: 静态ip的设置 2:主机名的设置 vim /etc/sysconfig/network # 编辑network文件修改hostname行(重启生效) HOSTANME=node1 或者通过命令 hostnamectl --static set-hostname n 阅读全文
posted @ 2020-02-23 21:58 ~沐风 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 序言 Flink是什么,为什么要用Flink? Flink的一个优势是,它拥有诸多重要的流式计算功能。其他项目为了实现 这些功能,都不得不付出代价。比如: Storm 实现了低延迟,但是在作者撰写本书 时还做不到高吞吐,也不能在故障发生时准确地处理计算状态; Spark Streaming 通过采用 阅读全文
posted @ 2020-02-23 16:40 ~沐风 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 序言 YARN(Yet Another Resource Negotiator,又一款资源协调器),管理和监控集群的负载,并进行作业分配,有时也被称为Hadoop的数据操作系统,由ResourceManage和NodeManager组成。 ResourceManager(资源管理器):YARN的主节 阅读全文
posted @ 2020-02-23 16:23 ~沐风 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 序言 Spark概述 Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。 Spark生态圈介绍 资料 https://www.cnblogs.com/qingyunzong/category/1202252.html 阅读全文
posted @ 2020-02-23 16:17 ~沐风 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 序言 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是典型的“分而治之”的思想。 MapReduce产生背景 如果让你统计日志里面的出现的某个URL的总次数,让你自己去写个单机版的程序,写个逻辑:无非就是读这个文件一行, 阅读全文
posted @ 2020-02-23 10:53 ~沐风 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 序言 分布式文件系统未出现的时候,一个文件只能存储在个服务器上,如果有个TB级别的文件,我们该怎么存储呢?,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出现就是为了解决上面分布式存储的问题。 hdfs为 阅读全文
posted @ 2020-02-23 10:23 ~沐风 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 序言 storm是twitter的开源流计算解决方案,因为对hadoop的mapreduce的高延迟缺点而出现。 主要学习方向 Kafka 分布式消息系统 Redis 缓存数据库 Storm 流式计算 1.Storm 的基本概念 2.Storm 的应用场景 3.Storm 和Hadoop的对比 4. 阅读全文
posted @ 2020-02-23 10:02 ~沐风 阅读(274) 评论(0) 推荐(0) 编辑