2020 年 2月 23 日随笔档案 - ~沐风

2020年2月23日

摘要：序言 Centos7环境设置 1: 静态ip的设置 2：主机名的设置 vim /etc/sysconfig/network # 编辑network文件修改hostname行(重启生效) HOSTANME=node1 或者通过命令 hostnamectl --static set-hostname n 阅读全文

posted @ 2020-02-23 21:58 ~沐风阅读(234) 评论(0) 推荐(0) 编辑

Flink简介

摘要：序言 Flink是什么，为什么要用Flink? Flink的一个优势是，它拥有诸多重要的流式计算功能。其他项目为了实现这些功能，都不得不付出代价。比如： Storm 实现了低延迟，但是在作者撰写本书时还做不到高吞吐，也不能在故障发生时准确地处理计算状态； Spark Streaming 通过采用阅读全文

posted @ 2020-02-23 16:40 ~沐风阅读(200) 评论(0) 推荐(0) 编辑

Hadoop——YARN

摘要：序言 YARN（Yet Another Resource Negotiator，又一款资源协调器），管理和监控集群的负载，并进行作业分配，有时也被称为Hadoop的数据操作系统，由ResourceManage和NodeManager组成。 ResourceManager（资源管理器）：YARN的主节阅读全文

posted @ 2020-02-23 16:23 ~沐风阅读(137) 评论(0) 推荐(0) 编辑

Spark简介

摘要：序言 Spark概述 Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。 Spark生态圈介绍资料 https://www.cnblogs.com/qingyunzong/category/1202252.html 阅读全文

posted @ 2020-02-23 16:17 ~沐风阅读(161) 评论(0) 推荐(0) 编辑

Hadoop——MapReduce

摘要：序言 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是典型的“分而治之”的思想。 MapReduce产生背景如果让你统计日志里面的出现的某个URL的总次数，让你自己去写个单机版的程序，写个逻辑：无非就是读这个文件一行, 阅读全文

posted @ 2020-02-23 10:53 ~沐风阅读(165) 评论(0) 推荐(0) 编辑

Hadoop——HDFS

摘要：序言分布式文件系统未出现的时候，一个文件只能存储在个服务器上，如果有个TB级别的文件，我们该怎么存储呢？，可想而知，单个服务器根本就存储不了这么大的文件；退而求其次，就算一个服务器可以存储这么大的文件，你如果想打开这个文件，效率会高吗？ hdfs的出现就是为了解决上面分布式存储的问题。 hdfs为阅读全文

posted @ 2020-02-23 10:23 ~沐风阅读(180) 评论(0) 推荐(0) 编辑

Strom流式计算

摘要：序言 storm是twitter的开源流计算解决方案，因为对hadoop的mapreduce的高延迟缺点而出现。主要学习方向 Kafka 分布式消息系统 Redis 缓存数据库 Storm 流式计算 1.Storm 的基本概念 2.Storm 的应用场景 3.Storm 和Hadoop的对比 4. 阅读全文

posted @ 2020-02-23 10:02 ~沐风阅读(274) 评论(0) 推荐(0) 编辑

沐风

公告