鼠标的博客

2024年7月24日

摘要：一、背景 MapReduce的局限性仅支持Map,Reduce两种语义操作执行效率低，时间开销大主要用于大规模离线批处理不适合迭代计算，交互式计算，实时流处理等场景计算框架种类多，选型难批处理：MapReduce 流处理：Storm,Flink 交互式计算：Impala,Presto 需阅读全文

posted @ 2024-07-24 17:45 鼠标的博客阅读(207) 评论(0) 推荐(0)

2024年7月21日

YARN

摘要： MapReduce（Hadoop 1.x）的设计缺陷身兼两职：计算框架+资源管理框架 JobTracker+TaskTracker(1:N) JobTracker - 既做资源管理，又做任务调度 - 任务太重，开销过大 - 存在单点故障资源描述模型过于简单，资源利用率较低 - 仅把Task数量看阅读全文

posted @ 2024-07-21 15:40 鼠标的博客阅读(123) 评论(0) 推荐(0)

2024年7月20日

HDFS概述

摘要： Hadoop的分布式文件系统 hadoop的三大核心子项目（HDFS,YARN,MapReduce）之一，用来解决海量数据存储问题优点：海量数据存储，典型文件大小GB~TB，百万以上文件数量，PB以上数据规模（文件切分分散存储，128M）高容错（多副本策略），高可用（HA，安全模式），高可扩展阅读全文

posted @ 2024-07-20 18:47 鼠标的博客阅读(87) 评论(0) 推荐(0)

2024年7月14日

MapReduce简述

摘要： MapReduce核心回顾阅读全文

posted @ 2024-07-14 20:27 鼠标的博客阅读(70) 评论(0) 推荐(0)

2024年6月28日

技术选型和优劣对比

摘要：流处理框架 Flink vs Spark Streaming vs Storm Flink 1、复杂时间处理：同时支持事件时间，接入时间，处理时间的选择，便于精准处理乱序事件和窗口运算 2、窗口操作灵活：提供了包括基于时间，计数，会话以及数据驱动的窗口定义 3、流批一体：基于事件驱动，低延迟，其他的阅读全文

posted @ 2024-06-28 10:02 鼠标的博客阅读(183) 评论(0) 推荐(0)

2024年6月25日

一些可以提高filebeat采集效率的点

摘要： filebeat 阅读全文

posted @ 2024-06-25 17:46 鼠标的博客阅读(387) 评论(0) 推荐(0)

2023年12月15日

RabbitMQ Management使用

摘要： RabbitMQ Management 操作阅读全文

posted @ 2023-12-15 17:47 鼠标的博客阅读(521) 评论(0) 推荐(0)

2023年10月31日

git仓库迁移-从A仓库的x分支迁移到B仓库的y分支

摘要： git 仓库分支迁移阅读全文

posted @ 2023-10-31 17:10 鼠标的博客阅读(1232) 评论(0) 推荐(0)

2023年6月22日

JVM杂记

摘要： java之父：高斯林官方文档： https://docs.oracle.com/javase/specs/index.html 官方在线PDF：https://docs.oracle.com/javase/specs/jvms/se8/jvms8.pdf >深入理解java虚拟机 javaSE8：阅读全文

posted @ 2023-06-22 23:45 鼠标的博客阅读(162) 评论(0) 推荐(0)

2022年12月30日

IDEA切换git分支时如何使用git stash

摘要： idea 切换分支 checkout, git stash 阅读全文

posted @ 2022-12-30 15:40 鼠标的博客阅读(2864) 评论(1) 推荐(0)

公告