摘要: 我们知道因为通常流是无限的(无界的),所以在流上的工作方式与批处理不同,使用相同的方式对流中的所有元素进行计数是不可能的。 但是很多时候又需要使用聚合事件(比如计数、求和)统计流上的数据,这个时候的聚合就用到了 window,因为需要由 window 来划定范围,比如 "计算过去的5分钟" , "统 阅读全文
posted @ 2021-05-19 13:35 大数据江湖 阅读(374) 评论(1) 推荐(1) 编辑
摘要: Flink 广播变量在实时处理程序中扮演着很重要的角色,适当的使用广播变量会大大提升程序处理效率。 本文从简单的 demo 场景出发,引入生产中实际的需求并提出思路与部分示例代码,应对一般需求应该没有什么问题,话不多说,赶紧来看看这篇干货满满的广播程序使用实战吧。 1 啥是广播 Flink 支持广播 阅读全文
posted @ 2021-05-18 10:04 大数据江湖 阅读(849) 评论(0) 推荐(1) 编辑
摘要: 上篇文章是数据结构的基础部分,主要介绍了一些注意事项。 今天开始线性表部分的梳理,线性表主要分为了基础概念和基本操作两大部分,由于某些过程或概念比较抽象,我添加了部分图示,希望能够把这些抽象的东西直观的表达出来。 基本操作模块重点主要在单链表和顺序表两部分,本文着重梳理了线性表插入、删除、查询等基础 阅读全文
posted @ 2020-11-18 19:44 大数据江湖 阅读(531) 评论(0) 推荐(1) 编辑
摘要: 数据结构作为编程的基础部分,我一直没有系统的梳理过,之前学的相关知识除了常用的部分,剩下的基本都还给学校了。 最近我准备重新整理一个数据结构的标签,温故知新,在梳理的过程中可能又会体会到很多之前没有想到的东西。 本文梳理的是数据结构的前言部分,也是最基础的部分。虽然基础但是仍然有很多新的东西值得分享 阅读全文
posted @ 2020-11-09 10:03 大数据江湖 阅读(220) 评论(0) 推荐(0) 编辑
摘要: Flink 做为第三代实时计算引擎以其独特的优势已经被广泛使用,它的实时计算能力确实值得称赞,本文先从基础架构与资源管理方面对其图文梳理,后续会逐渐深入了解并做部分实际应用。 1 基础架构 无论是从集群模式还是内部角色划分来看Flink 与 Spark 都比较类似,Spark 我们比较熟悉,可以对照 阅读全文
posted @ 2020-11-05 16:33 大数据江湖 阅读(536) 评论(0) 推荐(1) 编辑
摘要: 原来文本匹配的方式一直是用中规中矩的正则来做,最近在实际生产中由于数据量骤升,现有数据量提高了大约 3-4 倍,原本使用正则处理已经到了瓶颈,这次又有增量对生产来说可谓雪上加霜,而且随着正则词越加越多,匹配效率也越来越差,数据量的激增再加上正则词越加越多,提升生产的匹配效率已是迫在眉睫。 最近一段时 阅读全文
posted @ 2020-06-08 22:58 大数据江湖 阅读(629) 评论(0) 推荐(1) 编辑
摘要: 上篇文章最后说Hbase原生不支持sql查询,phoenix之于Hbase,就像hive之于Hadoop,会完美的实现hbase的sql查询操作,下面我们就来了解下phoenix,它不仅支持sqlonhbase,还使得创建Hbase二级索引变得更为简单。 本文主要从 phoenix 安装使用入手,介 阅读全文
posted @ 2020-06-08 22:53 大数据江湖 阅读(277) 评论(0) 推荐(1) 编辑
摘要: Hbase 整合 Hadoop 阅读全文
posted @ 2020-04-03 23:42 大数据江湖 阅读(734) 评论(0) 推荐(0) 编辑
摘要: 由于疫情原因在家办公,导致很长一段时间没有更新内容,这次终于带来一篇干货,是一篇关于 Hbase架构原理 的分享。 Hbase 作为实时存储框架在大数据业务下承担着举足轻重的地位,可以说目前绝大多数大数据场景都离不开Hbase。 今天就先从 Hbase 基础入手,来说说 Hbase 经常用到却容易疏 阅读全文
posted @ 2020-03-17 21:50 大数据江湖 阅读(1136) 评论(1) 推荐(0) 编辑
摘要: Zookeeper 阅读全文
posted @ 2019-12-23 10:26 大数据江湖 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 记一次Hadoop压缩,内含详细图文教程~ 阅读全文
posted @ 2019-11-20 13:52 大数据江湖 阅读(758) 评论(0) 推荐(0) 编辑
摘要: 在接触并发之前,我只听说过进程、线程,管程这个词倒是头回听说,抱着认真好学的态度,去找了找关于 管程 的资料,不学不知道,原来并发里的两大难题--互斥和同步都可以用管程来解决,可以说,管程是一把解决并发的万能钥匙。 那什么是管程呢?原来管程并不像进程、线程这样来形容一个特指东西的名词,管程是指管理共 阅读全文
posted @ 2019-11-17 13:52 大数据江湖 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 生活中随处可见并行的例子,并行 顾名思义就是一起进行的意思,同样的程序在某些时候也需要并行来提高效率,在上一篇文章中我们了解了 Java 语言对缓存导致的可见性问题、编译优化导致的顺序性问题的解决方法,下面我们就来看看 Java 中解决因线程切换导致的原子性问题的解决方案 -- 锁 。 说到锁我们并 阅读全文
posted @ 2019-09-19 22:38 大数据江湖 阅读(550) 评论(0) 推荐(1) 编辑
摘要: 并发编程 阅读全文
posted @ 2019-09-08 15:33 大数据江湖 阅读(4578) 评论(0) 推荐(2) 编辑
摘要: 模板模式 阅读全文
posted @ 2019-07-28 22:31 大数据江湖 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 时间复杂度 阅读全文
posted @ 2019-04-27 17:34 大数据江湖 阅读(6370) 评论(1) 推荐(4) 编辑
摘要: Hadoop 阅读全文
posted @ 2019-03-30 19:37 大数据江湖 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 二分法与二叉树的 Java 实现 阅读全文
posted @ 2019-03-13 00:26 大数据江湖 阅读(328) 评论(0) 推荐(0) 编辑
摘要: Hive 阅读全文
posted @ 2020-01-19 10:06 大数据江湖 阅读(679) 评论(0) 推荐(0) 编辑