上一页 1 ··· 3 4 5 6 7 8 下一页
摘要: 前言 Flink 是流式的、实时的 计算引擎 上面一句话就有两个概念,一个是流式,一个是实时。 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定? 无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔 阅读全文
posted @ 2021-01-25 20:13 五分钟学大数据 阅读(1104) 评论(0) 推荐(0) 编辑
摘要: hive窗口函数/分析函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数 阅读全文
posted @ 2021-01-21 21:31 五分钟学大数据 阅读(839) 评论(1) 推荐(1) 编辑
摘要: Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K 阅读全文
posted @ 2021-01-18 12:23 五分钟学大数据 阅读(3259) 评论(0) 推荐(2) 编辑
摘要: Kafka 简介 Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。 K 阅读全文
posted @ 2021-01-18 11:15 五分钟学大数据 阅读(759) 评论(0) 推荐(1) 编辑
摘要: 今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》 这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。 这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。 像Flink中非常重要的 阅读全文
posted @ 2021-01-17 12:03 五分钟学大数据 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 本文首发于公众号:五分钟学大数据 在面试的时候,发现很多面试官特别爱问Kafka相关的问题,这也不难理解,谁让Kafka是大数据领域中消息队列的唯一王者,单机十万级别的吞吐量,毫秒级别的延迟,这种天生的分布式消息队列,谁能不爱? 在最近的一场面试中,有个面试官看到简历中的项目上写Kafka了,就直接 阅读全文
posted @ 2021-01-14 15:45 五分钟学大数据 阅读(349) 评论(0) 推荐(0) 编辑
摘要: HBase简介 HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。 它介于 NoSql 和 RDBMS 之间,仅能通过主键(row key 阅读全文
posted @ 2021-01-14 09:36 五分钟学大数据 阅读(2261) 评论(3) 推荐(1) 编辑
摘要: 阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 文章首发于公众号:五分钟学大数据 前言 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数 阅读全文
posted @ 2021-01-12 16:02 五分钟学大数据 阅读(2897) 评论(0) 推荐(1) 编辑
摘要: 数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。 文章首发公众号:五分钟学大数据,公众号中发送“维度建模”即可获取此书籍第三版电子书 先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书 阅读全文
posted @ 2021-01-11 15:56 五分钟学大数据 阅读(3034) 评论(0) 推荐(0) 编辑
摘要: 本文首发于公众号:五分钟学大数据 小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式 直接向表中插入数据 insert into table A values (1,'zhangsan',88),(2,'lisi',61); 这种 阅读全文
posted @ 2021-01-10 11:36 五分钟学大数据 阅读(2211) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 下一页