某某人8265 - 博客园

2022年6月9日

摘要： Elasticsearch 一个开源的分布式搜索和分析引擎。可以快速存储、搜索、分析数据。提供服务的http端口为 9200，集群间通信端口为 9300。kibana的http服务端口为 5601。基本概念 index 索引当动词时类似mysql的 insert，当名词类似mysql的 datab 阅读全文

posted @ 2022-06-09 07:52 某某人8265 阅读(48) 评论(0) 推荐(0) 编辑

2022年6月7日

Flume

摘要： Flume Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。他有一个简单、灵活的基于流的数据结构具有负载均衡阅读全文

posted @ 2022-06-07 20:50 某某人8265 阅读(103) 评论(0) 推荐(0) 编辑

2022年6月4日

yarn 调度器

摘要： yarn 调度器 FIFO Scheduler：先进先出(first in, first out)调度策略 Capacity Scheduler：FIFO Scheduler的多队列版本（默认，常用） Fair Scheduler：多队列，多用户共享资源。第一个任务占用所有资源，第二个任务到达之后第阅读全文

posted @ 2022-06-04 09:27 某某人8265 阅读(35) 评论(0) 推荐(0) 编辑

Hadoop 性能优化

摘要： Hadoop 性能优化小文件问题 HDFS和MapReduce是针对大文件设计的，在小文件处理上效率低下，且十分消耗内存资源。每个小文件都会占用一个block、产生一个InputSplit、产生一个Map任务，这样map任务的启动时间很长，执行任务的时间很短。解决方法是使用容器将小文件组织起来，H 阅读全文

posted @ 2022-06-04 08:29 某某人8265 阅读(87) 评论(0) 推荐(0) 编辑

2022年5月30日

Shuffle

摘要： Shuffle 将数据从map端拷贝到reduce端的过程。 map生成的数据会放入内存缓冲区，大小为100M，当达到80M时溢写到磁盘中。直到map把数据计算完，然后将缓存中数据也保存到磁盘中。当map生成的数据存在分区时，磁盘中保存的数据也会分区。本地文件合并，图中存在3个分区。这3个分区会阅读全文

posted @ 2022-05-30 16:44 某某人8265 阅读(404) 评论(0) 推荐(0) 编辑

2022年5月29日

MapReduce + 开启日志收集

摘要： MapReduce hdfs用于存储海量数据，mapreduce则用于处理数据，是一种分布式计算模型。MapReduce的思想：将任务切割为多个小任务进行并行计算（Map），然后将得到的局部结果进行汇总（Reduce）。网络io的耗时远大于磁盘io。当计算程序和数据分别在不同机器上时，将计算程序移阅读全文

posted @ 2022-05-29 10:51 某某人8265 阅读(135) 评论(0) 推荐(0) 编辑

2022年5月28日

HDFS

摘要： HDFS 分布式文件系统，Hadoop Distributed File System。HDFS是一种允许文件通过网络再多台主机上共享的文件系统，可以让多台机器上的多个用户分享文件和存储空间。注意：HDFS不适合存储小文件。 HDFS shell 操作格式 hdfs dfs -<hdfs命令> hd 阅读全文

posted @ 2022-05-28 09:45 某某人8265 阅读(206) 评论(0) 推荐(0) 编辑

2022年5月26日

Hadoop 安装

摘要： Hadoop适合海量数据分布式存储和分布式计算，适合存储大量小文件。几个不同发行版： Apache Hadoop 最基础的官方开源版本 Cloudera Hadoop（CDH）商业版本，对官方版本做了优化，提供收费服务，方便集群运维管理 HortonWorks（HDP）开源，提供界面操作，方便运阅读全文

posted @ 2022-05-26 12:26 某某人8265 阅读(36) 评论(0) 推荐(0) 编辑

2022年5月25日

大数据发展历程

摘要：整理自 https://www.bilibili.com/video/BV1tF411479W 小数据时代 OLTP（增删改）OLAP（查询）二合一的系统，随着数据量的增大开始分库分表。之后大量数据的处理（min max avg ...）不易操作。大数据所有数据汇聚到一个中心存储，这个中心底层是阅读全文

posted @ 2022-05-25 15:31 某某人8265 阅读(484) 评论(0) 推荐(0) 编辑

2022年5月9日

谷粒商城-树型菜单查询

摘要：三级菜单数据查询以人人开源项目为基础创建管理系统电商平台中常见三级菜单数据库中数据通过父id字段找到所属级别控制层添加展示接口 /** * 查出所有分类以及子分类，以树形结构组装起来。 * @return */ @GetMapping("/list") public Result list 阅读全文

posted @ 2022-05-09 15:26 某某人8265 阅读(171) 评论(0) 推荐(0) 编辑

公告