摘要:
Elasticsearch 一个开源的分布式搜索和分析引擎。可以快速存储、搜索、分析数据。提供服务的http端口为 9200,集群间通信端口为 9300。kibana的http服务端口为 5601。 基本概念 index 索引当动词时类似mysql的 insert,当名词类似mysql的 datab 阅读全文
摘要:
Flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 他有一个简单、灵活的基于流的数据结构 具有负载均衡 阅读全文
摘要:
yarn 调度器 FIFO Scheduler:先进先出(first in, first out)调度策略 Capacity Scheduler:FIFO Scheduler的多队列版本(默认,常用) Fair Scheduler:多队列,多用户共享资源。第一个任务占用所有资源,第二个任务到达之后第 阅读全文
摘要:
Hadoop 性能优化 小文件问题 HDFS和MapReduce是针对大文件设计的,在小文件处理上效率低下,且十分消耗内存资源。每个小文件都会占用一个block、产生一个InputSplit、产生一个Map任务,这样map任务的启动时间很长,执行任务的时间很短。解决方法是使用容器将小文件组织起来,H 阅读全文
摘要:
Shuffle 将数据从map端拷贝到reduce端的过程。 map生成的数据会放入内存缓冲区,大小为100M,当达到80M时溢写到磁盘中。直到map把数据计算完,然后将缓存中数据也保存到磁盘中。当map生成的数据存在分区时,磁盘中保存的数据也会分区。 本地文件合并,图中存在3个分区。 这3个分区会 阅读全文
摘要:
MapReduce hdfs用于存储海量数据,mapreduce则用于处理数据,是一种分布式计算模型。MapReduce的思想:将任务切割为多个小任务进行并行计算(Map),然后将得到的局部结果进行汇总(Reduce)。 网络io的耗时远大于磁盘io。当计算程序和数据分别在不同机器上时,将计算程序移 阅读全文
摘要:
HDFS 分布式文件系统,Hadoop Distributed File System。HDFS是一种允许文件通过网络再多台主机上共享的文件系统,可以让多台机器上的多个用户分享文件和存储空间。注意:HDFS不适合存储小文件。 HDFS shell 操作格式 hdfs dfs -<hdfs命令> hd 阅读全文
摘要:
Hadoop适合海量数据分布式存储和分布式计算,适合存储大量小文件。 几个不同发行版: Apache Hadoop 最基础的官方开源版本 Cloudera Hadoop(CDH)商业版本,对官方版本做了优化,提供收费服务,方便集群运维管理 HortonWorks(HDP) 开源,提供界面操作,方便运 阅读全文
摘要:
整理自 https://www.bilibili.com/video/BV1tF411479W 小数据时代 OLTP(增删改)OLAP(查询)二合一的系统,随着数据量的增大开始分库分表。之后大量数据的处理(min max avg ...)不易操作。 大数据 所有数据汇聚到一个中心存储,这个中心底层是 阅读全文
摘要:
三级菜单数据查询 以人人开源项目为基础创建管理系统 电商平台中常见三级菜单 数据库中数据通过父id字段找到所属级别 控制层 添加展示接口 /** * 查出所有分类以及子分类,以树形结构组装起来。 * @return */ @GetMapping("/list") public Result list 阅读全文