摘要: 一、背景 MapReduce的局限性 仅支持Map,Reduce两种语义操作 执行效率低,时间开销大 主要用于大规模离线批处理 不适合迭代计算,交互式计算,实时流处理等场景 计算框架种类多,选型难 批处理:MapReduce 流处理:Storm,Flink 交互式计算:Impala,Presto 需 阅读全文
posted @ 2024-07-24 17:45 鼠标的博客 阅读(89) 评论(0) 推荐(0) 编辑
摘要: MapReduce(Hadoop 1.x)的设计缺陷 身兼两职:计算框架+资源管理框架 JobTracker+TaskTracker(1:N) JobTracker - 既做资源管理,又做任务调度 - 任务太重,开销过大 - 存在单点故障 资源描述模型过于简单,资源利用率较低 - 仅把Task数量看 阅读全文
posted @ 2024-07-21 15:40 鼠标的博客 阅读(39) 评论(0) 推荐(0) 编辑
摘要: Hadoop的分布式文件系统 hadoop的三大核心子项目(HDFS,YARN,MapReduce)之一,用来解决海量数据存储问题 优点: 海量数据存储,典型文件大小GB~TB,百万以上文件数量,PB以上数据规模(文件切分分散存储,128M) 高容错(多副本策略),高可用(HA,安全模式),高可扩展 阅读全文
posted @ 2024-07-20 18:47 鼠标的博客 阅读(14) 评论(0) 推荐(0) 编辑
摘要: MapReduce核心回顾 阅读全文
posted @ 2024-07-14 20:27 鼠标的博客 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 流处理框架 Flink vs Spark Streaming vs Storm Flink 1、复杂时间处理:同时支持事件时间,接入时间,处理时间的选择,便于精准处理乱序事件和窗口运算 2、窗口操作灵活:提供了包括基于时间,计数,会话以及数据驱动的窗口定义 3、流批一体:基于事件驱动,低延迟,其他的 阅读全文
posted @ 2024-06-28 10:02 鼠标的博客 阅读(43) 评论(0) 推荐(0) 编辑
摘要: filebeat 阅读全文
posted @ 2024-06-25 17:46 鼠标的博客 阅读(123) 评论(0) 推荐(0) 编辑
摘要: RabbitMQ Management 操作 阅读全文
posted @ 2023-12-15 17:47 鼠标的博客 阅读(274) 评论(0) 推荐(0) 编辑
摘要: git 仓库分支迁移 阅读全文
posted @ 2023-10-31 17:10 鼠标的博客 阅读(743) 评论(0) 推荐(0) 编辑
摘要: java之父:高斯林 官方文档: https://docs.oracle.com/javase/specs/index.html 官方在线PDF:https://docs.oracle.com/javase/specs/jvms/se8/jvms8.pdf >深入理解java虚拟机 javaSE8: 阅读全文
posted @ 2023-06-22 23:45 鼠标的博客 阅读(130) 评论(0) 推荐(0) 编辑
摘要: idea 切换分支 checkout, git stash 阅读全文
posted @ 2022-12-30 15:40 鼠标的博客 阅读(1830) 评论(1) 推荐(0) 编辑