java/Java Pyton 大数据 Hadoop Spark

摘要: 概述 物化视图和视图类似,反映的是某个查询的结果,但是和视图仅保存SQL定义不同,物化视图本身会存储数据,因此是物化了的视图。 当用户查询的时候,原先创建的物化视图会注册到优化器中,用户的查询命中物化视图后,会直接去物化视图拿数据(缓存),提高运行速度,是典型的空间换时间。 本篇文章会先介绍《Opt 阅读全文
posted @ 2022-03-20 13:54 zzzzMing 阅读(2211) 评论(0) 推荐(0) 编辑
摘要: docker本身,其实仅仅是提供了一种沙盒的机制,对不同应用进行隔离。镜像是它出彩的一个设计,可以让开发者们快速部署应用。但这对大型应用管理来说,是远远不够的。开发者们在意识到这个问题后,提出了编排这个概念,从而引发的新的纷争。。。 阅读全文
posted @ 2020-08-10 20:49 zzzzMing 阅读(3121) 评论(0) 推荐(0) 编辑
摘要: 分布式系统一致性难吗?很难,难的哪里?最后又该如何解决。 阅读全文
posted @ 2020-02-28 19:37 zzzzMing 阅读(2241) 评论(0) 推荐(1) 编辑
摘要: 前两次讲了 Spark RPC 的基础内容以及源码时序分析。这次我们来看看Spark 如何用 RPC 实现心跳。 阅读全文
posted @ 2019-01-17 20:40 zzzzMing 阅读(1834) 评论(0) 推荐(2) 编辑
摘要: 通常情况下,我们都是使用一套kafka集群处理业务。但有些情况需要使用另一套kafka集群来进行数据同步和备份,比如需要更高的 SLA~ 阅读全文
posted @ 2021-01-12 21:00 zzzzMing 阅读(5597) 评论(1) 推荐(1) 编辑
摘要: 在kafka2.4的时候,社区推出两个新feature来解决重平衡过程中stop the world的问题。 1. Incremental Rebalance Protocol(以下简称cooperative协议):改进了eager协议(即旧重平衡协议)的问题,避免STW的发生 2. static membership:避免重起或暂时离开的消费者触发重平衡 本篇接下来主要介绍这两点。 阅读全文
posted @ 2020-12-23 20:19 zzzzMing 阅读(3907) 评论(1) 推荐(0) 编辑
摘要: 最近看了kafka2.4新版本的一些功能特性,不得不说,在kafka2.0以后,kafka自身就比较少推出一些新的feature了,基本都是一些修修补补的东西。倒是kafka connect和kafka stream相关的开发工作做的比较多。可能kafka的野心也不局限于要当一个中间件,而是要实现一 阅读全文
posted @ 2020-12-02 20:31 zzzzMing 阅读(1658) 评论(1) 推荐(0) 编辑
摘要: 用户认证功能,是一个成熟组件不可或缺的功能。在0.9版本以前kafka是没有用户认证模块的(或者说只有SSL),好在kafka0.9版本以后逐渐发布了多种用户认证功能,弥补了这一缺陷(这里仅介绍SASL)。 本篇会先介绍当前kafka的四种认证方式,然后过一遍部署SASL/PLAIN认证功能的流程。 阅读全文
posted @ 2020-11-23 19:44 zzzzMing 阅读(14880) 评论(1) 推荐(0) 编辑
摘要: 上一篇主要对Calcite的背景,技术特点,SQL的RBO和CBO等做了一个初步的介绍。深入浅出Calcite与SQL CBO(Cost-Based Optimizer)优化 这一篇会从Hive入手,介绍Hive如何使用Calcite来优化自己的SQL,主要从源码的角度进行介绍。文末附有一篇其他博主 阅读全文
posted @ 2020-09-22 19:30 zzzzMing 阅读(5514) 评论(0) 推荐(1) 编辑
摘要: 前阵子工作上需要用到Calcite做一些事情,然后发现这个东西也是蛮有意思的,就花了些时间研究了一下。本篇主要围绕SQL 优化这块来介绍Calcite,后面会介绍Hive如何Calcite进行SQL的优化。 此外,也将Calcite的一些使用样例整理成到github,https://github.c 阅读全文
posted @ 2020-09-16 18:59 zzzzMing 阅读(4493) 评论(0) 推荐(1) 编辑
摘要: 最近搭了Kylin Streaming并初步测试了下,觉得这个东西虽然有些限制,但还是蛮好用的,所以系统写篇文章总结下其原理和一些配置。 阅读全文
posted @ 2020-07-27 21:18 zzzzMing 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 不知不觉,2020年已经过去一半了,最近突然反应过来自己也看了不少文献资料了,就想着把看过的文献和觉得比较好的书籍做一个总结,基本都是大数据分布式领域的,回顾自己学识的同时,也给想从事或这个领域的小伙伴一些参考 阅读全文
posted @ 2020-07-16 19:32 zzzzMing 阅读(1839) 评论(0) 推荐(1) 编辑