上一页 1 2 3 4 5 6 ··· 8 下一页
摘要: ​ 本文目录: 一、前言 二、概念解析 数据仓库 数据湖 数据中台 三、具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四、湖仓一体 目前数据存储方案 Data Lakehouse(湖仓一体) 一、前言 数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷 阅读全文
posted @ 2022-02-22 09:36 五分钟学大数据 阅读(1464) 评论(0) 推荐(0) 编辑
摘要: 此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待 复习大数据面试题,看这一套就够了! 本文目录: 一、Hadoop 二、Hive 三、Spark 四、Kafka 五、HBase 六、Flink 七、数仓业务方面 八、算法 本文因内 阅读全文
posted @ 2022-02-16 14:46 五分钟学大数据 阅读(3574) 评论(0) 推荐(1) 编辑
摘要: ​ 数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋 阅读全文
posted @ 2022-01-11 09:35 五分钟学大数据 阅读(1385) 评论(0) 推荐(1) 编辑
摘要: Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起 阅读全文
posted @ 2021-12-28 09:11 五分钟学大数据 阅读(3125) 评论(0) 推荐(0) 编辑
摘要: 本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦! 注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。 阅读全文
posted @ 2021-12-23 16:09 五分钟学大数据 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的 阅读全文
posted @ 2021-12-14 11:28 五分钟学大数据 阅读(4636) 评论(0) 推荐(0) 编辑
摘要: 本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_nam 阅读全文
posted @ 2021-11-30 14:40 五分钟学大数据 阅读(1346) 评论(0) 推荐(1) 编辑
摘要: 面试吹牛之前先打个草稿! 各位面试官好! 我叫 xxx,毕业于 xxx,之前在 xxx 公司待了 1 年多,期间⼀直从事的是 IT 行业,刚开始的时候做的是 Java 开发后来转岗到大数据方向做大数据开发; 刚转行到大数据开发的时候开始比较困难的,大数据并不像 Java 那样⼀套框架基本可以搞定所有 阅读全文
posted @ 2021-11-24 11:39 五分钟学大数据 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等! 目录: 一、数据模型架构原则 数仓分层原则主题域划分原则数据模型设计原则 二、数仓公共开发规范 层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处 阅读全文
posted @ 2021-11-11 12:22 五分钟学大数据 阅读(8658) 评论(1) 推荐(4) 编辑
摘要: Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将 阅读全文
posted @ 2021-11-05 13:53 五分钟学大数据 阅读(3361) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 8 下一页